lxml怎么解析HTML文档

html lxml

小亿

156

2024-05-14 13:21:13

栏目: 编程语言

可以使用lxml库中的html.fromstring()方法来解析HTML文档。首先需要将HTML文档读取为字符串，然后使用html.fromstring()方法将其转换为Element对象，最后可以使用Element对象的方法来获取需要的信息。以下是一个示例代码：

from lxml import html

# 读取HTML文档
with open('example.html', 'r') as file:
    html_content = file.read()

# 解析HTML文档
tree = html.fromstring(html_content)

# 获取标题
title = tree.findtext('.//title')

# 获取所有的链接
links = tree.xpath('.//a/@href')

# 打印结果
print(title)
print(links)

在上面的代码中，我们首先读取了名为example.html的HTML文档，然后使用html.fromstring()方法将其转换为Element对象tree。接着使用Element对象的findtext()方法获取标题，并使用xpath()方法获取所有的链接。最后打印标题和链接的结果。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

lxml怎么解析HTML文档

最新问答

相关标签