Scrapy框架使用代理IP要点是什么

发布时间：2021-10-28 18:43:40 来源：亿速云阅读：112 作者：柒染栏目：大数据

Scrapy框架使用代理IP要点是什么，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

scrapy框架通过模块化的设计实现了数据采集的通用功能接口，并提供自定义拓展，它将程序员从繁冗的流程式重复劳动中解放出来，给编程人员提供了灵活简便的基础构建，对于普通的网页数据采集，编程人员只需要将主要精力投入在网站数据分析和网站反爬策略分析上，结合代理IP的使用，可以实现项目的高效快速启动。

主要特性包括：

1）参数化设置请求并发数，自动异步执行

2）支持xpath，简洁高效

3）支持自定义中间件middleware

4）支持采集源列表

5）支持独立调试，方便 shell 方式

6）支持数据管道接口定义，用户可以选择文本、数据库等多种方式

在Scrapy框架中使用代理的方式有如下几种：

1.scrapy中间件

在项目中新建middlewares.py文件(./项目名/middlewares.py)，内容如下：

#! -*- encoding:utf-8 -*-

import base64

import sys

import random

PY3 = sys.version_info[0] >= 3

def base64ify(bytes_or_str):

if PY3 and isinstance(bytes_or_str, str):

input_bytes = bytes_or_str.encode('utf8')

else:

input_bytes = bytes_or_str

output_bytes = base64.urlsafe_b64encode(input_bytes)

if PY3:

return output_bytes.decode('ascii')

else:

return output_bytes

class ProxyMiddleware(object):

def process_request(self, request, spider):

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

# 添加验证头

encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)

request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

# 设置IP切换头(根据需求)

tunnel = random.randint(1,10000)

request.headers['Proxy-Tunnel'] = str(tunnel)

修改项目配置文件 (./项目名/settings.py)

DOWNLOADER_MIDDLEWARES = {

'项目名.middlewares.ProxyMiddleware': 100,

}

2.scrapy环境变量

通过设置环境变量，来使用爬虫代理（Windows）

C:\>set http_proxy=http://username:password@ip:port

关于Scrapy框架使用代理IP要点是什么问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注亿速云行业资讯频道了解更多相关知识。

向AI问一下细节

Scrapy框架使用代理IP要点是什么

猜你喜欢

最新资讯

相关推荐

相关标签