要将HTML文件转换为TXT文件,可以使用以下方法之一:
from bs4 import BeautifulSoup
# 打开HTML文件
with open('input.html', 'r') as file:
html_content = file.read()
# 解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')
# 提取纯文本内容
text_content = soup.get_text()
# 将内容写入TXT文件
with open('output.txt', 'w') as file:
file.write(text_content)
无论使用哪种方法,最终都会得到一个纯文本的TXT文件,其中包含从HTML中提取出的内容。