温馨提示×

python spider爬虫如何设置User-Agent

小樊
81
2024-12-12 04:49:43
栏目: 编程语言

在Python的Spider爬虫中,设置User-Agent可以通过修改请求头实现。以下是一个使用requests库设置User-Agent的示例:

首先,确保已经安装了requests库。如果没有安装,可以使用以下命令安装:

pip install requests

然后,在爬虫代码中设置User-Agent:

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    # 在这里编写你的爬虫逻辑
else:
    print(f"请求失败,状态码:{response.status_code}")

在这个示例中,我们首先导入requestsBeautifulSoup库。然后,我们定义要爬取的URL和包含User-Agent的请求头。接下来,我们使用requests.get()方法发送带有自定义User-Agent的请求,并将响应存储在response变量中。最后,我们检查响应的状态码,如果状态码为200(表示请求成功),则使用BeautifulSoup解析HTML内容。

0