从 Python 中的字符串中删除 HTML 标记
在本指南中,我们将学习并应用一些方法来从字符串中删除 HTML 标记。我们将使用正则表达式 BeautifulSoup
和 XML 元素树。
因为 HTML 标签总是包含符号 <>
。我们将导入内置的 re
模块(正则表达式)并使用 compile()
方法在输入字符串中搜索定义的模式。
在这里,模式 <.*?>
表示标签 <>
内的零个或多个字符,并且匹配尽可能少。
sub()
方法用于将出现的字符串替换为另一个字符串。在这里,它将用空字符串替换找到的匹配项。
示例代码:
#Python 3.x
import re
string='<h1>Delftstack</h1>'
print('String before cleaning:', string)
to_clean = re.compile('<.*?>')
cleantext = re.sub(to_clean, '', string)
print('String after cleaning:', cleantext)
输出:
#Python 3.x
String before cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack
BeautifulSoup
是一个 Python 库,用于从 HTML 和 XML 中获取数据。它使用解析器来解析 HTML 和 XML;推荐一个是 lxml
。
我们需要在继续之前安装两者,使用以下命令:
#Python 3.x
pip install beautifulsoup4
#Python 3.x
pip install lxml
我们导入了 BeautifulSoup
模块并在以下代码中解析了给定的 HTML 字符串。我们使用 text
属性从 HTML 访问文本。
示例代码:
#Python 3.x
from bs4 import BeautifulSoup
string='<h1>Delftstack</h1>'
print('String after cleaning:', string)
cleantext = BeautifulSoup(string, "lxml").text
print('String after cleaning:', cleantext)
输出:
#Python 3.x
String after cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack
ElementTree 是一个通过 XML 解析和导航的库。fromstring()
方法将 XML 直接从字符串解析为元素,该元素是解析树的根元素。
itertext()
生成一个文本迭代器,它按文档顺序循环遍历该元素及其所有子元素,返回所有内部文本。通过合并由字符串分隔符分隔的可迭代(输入字符串)的所有组件(内部文本),join()
方法返回一个没有 HTML 标记的字符串。
示例代码:
#Python 3.x
import xml.etree.ElementTree as ET
string = '<h1>Delftstack</h1>'
print('String before cleaning:', string)
tree = ET.fromstring(string)
print('String after cleaning:',''.join(tree.itertext()))
输出:
#Python 3.x
String before cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack
相关文章
Pandas DataFrame DataFrame.shift() 函数
发布时间:2024/04/24 浏览次数:133 分类:Python
-
DataFrame.shift() 函数是将 DataFrame 的索引按指定的周期数进行移位。
Python pandas.pivot_table() 函数
发布时间:2024/04/24 浏览次数:82 分类:Python
-
Python Pandas pivot_table()函数通过对数据进行汇总,避免了数据的重复。
Pandas read_csv()函数
发布时间:2024/04/24 浏览次数:254 分类:Python
-
Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。
Pandas 多列合并
发布时间:2024/04/24 浏览次数:628 分类:Python
-
本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。
Pandas loc vs iloc
发布时间:2024/04/24 浏览次数:837 分类:Python
-
本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。
在 Python 中将 Pandas 系列的日期时间转换为字符串
发布时间:2024/04/24 浏览次数:894 分类:Python
-
了解如何在 Python 中将 Pandas 系列日期时间转换为字符串