温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Scrapy框架使用代理IP要点是什么

发布时间:2021-10-28 18:43:40 来源:亿速云 阅读:114 作者:柒染 栏目:大数据

Scrapy框架使用代理IP要点是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

scrapy框架通过模块化的设计实现了数据采集的通用功能接口,并提供自定义拓展,它将程序员从繁冗的流程式重复劳动中解放出来,给编程人员提供了灵活简便的基础构建,对于普通的网页数据采集,编程人员只需要将主要精力投入在网站数据分析和网站反爬策略分析上,结合代理IP的使用,可以实现项目的高效快速启动。

主要特性包括:

1)参数化设置请求并发数,自动异步执行

2)支持xpath,简洁高效

3)支持自定义中间件middleware

4)支持采集源列表

5)支持独立调试,方便 shell 方式

6)支持数据管道接口定义,用户可以选择文本、数据库等多种方式

在Scrapy框架中使用代理的方式有如下几种:

1.scrapy中间件

在项目中新建middlewares.py文件(./项目名/middlewares.py),内容如下:

#! -*- encoding:utf-8 -*-  

import base64

import sys

import random

PY3 = sys.version_info[0] >= 3

def base64ify(bytes_or_str):

   if PY3 and isinstance(bytes_or_str, str):

       input_bytes = bytes_or_str.encode('utf8')

   else:

       input_bytes = bytes_or_str             

   output_bytes = base64.urlsafe_b64encode(input_bytes)

   if PY3:

       return output_bytes.decode('ascii')

   else:

       return output_bytes

class ProxyMiddleware(object):

   def process_request(self, request, spider):

       # 代理服务器(产品官网 www.16yun.cn)

       proxyHost = "t.16yun.cn"

       proxyPort = "31111"

       # 代理验证信息

       proxyUser = "username"

       proxyPass = "password" 

       request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

       # 添加验证头

       encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)

       request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

       # 设置IP切换头(根据需求)

       tunnel = random.randint(1,10000)

       request.headers['Proxy-Tunnel'] = str(tunnel)

修改项目配置文件 (./项目名/settings.py)

   DOWNLOADER_MIDDLEWARES = {

       '项目名.middlewares.ProxyMiddleware': 100,

   }

2.scrapy环境变量

通过设置环境变量,来使用爬虫代理(Windows)

  C:\>set http_proxy=http://username:password@ip:port

关于Scrapy框架使用代理IP要点是什么问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI