这篇文章主要介绍了如何用python获取免费代理IP的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇如何用python获取免费代理IP文章都会有所收获,下面我们一起来看看吧。
首先创建scrapy项目, 运行一下命令:
$ scrapy startproject getProxy kuaidaili.com
$ scrapy genspider proxyKdlSpider kuaidaili.com
百度搜索免费代理ip, 我进的是快代理, 页面通过列表显示代理ip及其相关信息的。
3. 通过以上的界面, 改写items.py, 增加如下项, 用来保存代理ip的相关信息
4. 通过观察页面源码, 发现我们需要的代理ip信息可用xpath轻易获取。
5. 通过上图观察到的规律改写proxyKdlSpider.py文件, 通过如下xpath可获取代理ip信息。
6. 改写pipelines.py, 将解析提取出来的代理ip信息保存到文件proxy.txt中。
7. 改写settings.py, 增加以下行:
其中USER_AGENT会改写请求headers。 因快代理网站会通过USER_AGENT来判断访问者是否爬虫, 不这样设置会导致运行爬虫的ip被封禁。
设置DOWNLOAD_DELAY=5含义是爬虫每5s请求一个网页, 这样设置的目的是为了避免快速访问大量网页触发网站的反爬虫机制
设置ITEM_PIPELINES是告诉爬虫在过滤完需要的信息后如何保存。
8 运行编写的爬虫:
$ scrapy crawl proxyKdlSpider
由于我们限制了采集速度, 过程会有点长。 运行完毕后采集结果如下:
关于“如何用python获取免费代理IP”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“如何用python获取免费代理IP”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。