怎么使用python爬取网页

python

小亿

105

2023-08-03 00:34:30

栏目: 编程语言

要使用Python爬取网页，可以使用第三方库如Requests或Scrapy来帮助处理HTTP请求，然后使用BeautifulSoup或lxml等库来解析网页内容。

下面是一个使用Requests和BeautifulSoup的例子来爬取网页：

import requests
from bs4 import BeautifulSoup
# 发送GET请求
response = requests.get('https://example.com')
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的链接
links = soup.find_all('a')
# 打印所有链接的文本和URL
for link in links:
print(link.text, link['href'])

这个例子中，我们首先使用Requests库发送GET请求来获取网页的内容。然后使用BeautifulSoup库来解析HTML内容。接着，通过find_all函数找到所有的链接，并打印它们的文本和URL。

你可以根据实际需求对代码进行修改和扩展，比如添加更多的爬取逻辑，处理页面的登录、分页等操作。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

怎么使用python爬取网页

最新问答

相关标签