这篇文章将为大家详细讲解有关scrapy如何实现ip动态代理与更换ip,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
请自行准备一个ip代理的平台
例如我用的这个平台,每次提取10个ip
从上面可以看到数据格式是文本,换行是\r\n,访问链接之后大概就是长这样的,scrapy里面的ip需要加上前缀http://
例如:http://117.95.41.21:34854
OK,那现在已经准备好了ip了,先给你们屡一下思路。
ip池和计数器放在setting文件
第一次请求的时候要填满ip池,所以在爬虫文件的start_requests函数下手
更换ip的地方是middlewares的下载器中间件类的process_request函数,因为每个请求发起前都会经过这个函数
首先是setting文件,其实就是加两句代码
count = {'count': 0}
ipPool = []
还有就是开启下载器中间件,注意是下面那个download的类,中间件的process_request函数的时候才能生效
下载器中间件的process_request函数,进行ip代理和固定次数更还ip代理池
# 记得导包
from 你的项目.settings import ipPool, count
import random
import requests
def process_request(self, request, spider):
# 随机选中一个ip
ip = random.choice(ipPool)
print('当前ip', ip, '-----', count['count'])
# 更换request的ip----------这句是重点
request.meta['proxy'] = ip
# 如果循环大于某个值,就清理ip池,更换ip的内容
if count['count'] > 50:
print('-------------切换ip------------------')
count['count'] = 0
ipPool.clear()
ips = requests.get('你的ip获取的地址')
for ip in ips.text.split('\r\n'):
ipPool.append('http://' + ip)
# 每次访问,计数器+1
count['count'] += 1
return None
最后就是爬虫文件的start_requests函数,就是第一次发请求前要先填满ip池的ip
# 记得导包
from 你的项目.settings import ipPool
import random
import requests
def start_requests(self):
# 第一次请求发起前先填充一下ip池
ips = requests.get('你的ip获取的地址')
for ip in ips.text.split('\r\n'):
ipPool.append('http://' + ip)
简单的ip代理以及固定次数就更换ip池就完成了
关于“scrapy如何实现ip动态代理与更换ip”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。