如何用正则表达式提取 HTML 标签内容

发布时间：2025-01-23 19:20:37 阅读：83 作者：小樊栏目：编程语言

前端开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

要使用正则表达式提取 HTML 标签内容，请遵循以下步骤：

导入正则表达式库：在 Python 中，您需要导入 re 库。

import re

编写正则表达式模式：为了匹配 HTML 标签，您可以使用以下正则表达式模式：

<[^>]+>

这个模式的解释如下：

<：匹配尖括号 <。
[^>]+：匹配任意字符（除了 >）一个或多个，直到遇到 >。
>：匹配尖括号 >。

使用 re.findall() 函数提取 HTML 标签内容：将 HTML 字符串和正则表达式模式作为参数传递给 re.findall() 函数，它将返回一个包含所有匹配项的列表。

示例代码：

import re

html_string = '''
<div>
    <p>这是一个段落。</p>
    <span>这是一个内联元素。</span>
</div>
'''

pattern = r'<[^>]+>'
tags = re.findall(pattern, html_string)

print(tags)

输出结果：

['<div>', '<p>这是一个段落。</p>', '<span>这是一个内联元素。</span>', '</div>']

请注意，这个正则表达式可能无法处理所有 HTML 文档，特别是那些包含 JavaScript 代码或特殊字符的文档。在这种情况下，建议使用 HTML 解析库（如 BeautifulSoup 或 lxml）来处理 HTML 文档。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

如何用正则表达式提取 HTML 标签内容

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签