在Python的Scrapy框架中,你可以通过在Spider类中定义一个start_requests
方法来设置请求头。以下是一个简单的示例:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['https://example.com']
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url, headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Accept-Language': 'en',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Connection': 'keep-alive',
})
在这个示例中,我们定义了一个名为MySpider
的Spider类,并在其中设置了请求头。start_requests
方法遍历start_urls
列表中的每个URL,并使用scrapy.Request
对象发起请求。在创建scrapy.Request
对象时,我们传递了headers
参数,其中包含了我们想要设置的请求头。
这样,当你运行这个爬虫时,它将使用指定的请求头来发起网络请求。