python爬虫如何进行识别

发布时间：2020-11-26 14:56:42 阅读：261 作者：Leah 栏目：开发技术

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

本篇文章为大家展示了python爬虫如何进行识别，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

一、识别爬虫

1. HTTP请求头

这算是最基础的网络爬虫识别了，正常的网络访问者都是通过浏览器对网站进行访问的。而浏览器都会带上自己的请求头以表明自己的基础信息。而这也是最容易被爬虫程序突破的识别手段，因为HTTP请求头谁都可以进行修改和伪造。

2. Cookie值

Cookie通常用来标识网站访问者的身份，就像是手上的一张临时凭证。并凭着这个凭着与网站服务器进行身份的校对。很遗憾，Cookie是保存在客户端的数据，也可以被修改和伪造。

3. 访问频率

如果一个访问者，每隔1秒请求一次网站的某个页面，或者一秒钟请求了几百次这个页面。这个访问者不是爬虫程序就有鬼了。试问人类中有谁能快速和频繁地点击鼠标访问一个页面?他是得了帕金森综合征还是八爪鱼转世?

通过访问频率来识别爬虫程序是可行的，但是爬虫程序也能通过使用大量的代理IP来实现一个IP地址只访问了一次的效果，也可以通过随机的请求时间间隔规避。

4. 鼠标行为轨迹

正常人类访问者浏览网页势必不会像机器一样，机械地移动和点击鼠标。而鼠标的移动和点击，是可以通过JS脚本捕获到的，所以可以通过判断访问者的鼠标行为轨迹来判断访问者是否为爬虫程序。

5. token值

现在很多网站都是前后端分离开发的，数据通过后端接口返回给前端，前端拿到数据再结合页面进行渲染。所以很多爬虫程序都直接找数据接口，而不是傻傻地请求页面了。token就用在验证这些后端数据接口上。token一般通过网页上的某个密钥加上时间再加上某些数据组合加密而成。

还有更多地识别爬虫的手段在此就不一一进行介绍。很遗憾的是，上述任何一种识别爬虫的手段，都有可能被爬虫绕过和突破。

1. 内容上限制内容的开放

开放的内容是获取用户、流量的基础，所以内容必须是开放的。但是内容的开放并不是无限制的开放。非注册用户可以看到一篇内容、两篇内容，但是不能无限地一直看到内容。这个限制，可以是要求登录，可以是要求扫码验证，可以是接入谷歌验证码之类的点击验证机制。

现在已经有越来越多的网站采用了有限内容开放的机制，比如微博、知乎、淘宝等，你可以看到一页两页的内容，但是如果还想继续，对不起请登录。

2. 行为上记录用户操作

需要访问者进行登录并不能解决问题，因为模拟登录一直是网络爬虫程序的一个热门发展分支，无论是图片验证码、拼图、滑块还是点选汉字，都会被突破。甚至于短信验证码都可以通过编写APP与爬虫程序和网站之间进行通信。

所以记录用户行为必不可少，用户的一切操作和访问行为都需要记录在案，这是分析和处理爬虫的基础。

3. 控制上严厉打击高频行为

从实际上来看，也有很多爬虫程序的运行并非是为了往死里薅网站的数据和内容，仅仅是为了方便进行手工的收集和整理工作，这种类型的爬虫行为一般会比人工浏览的频次要高，但是又显著低于鬣狗般的高频爬虫，对这种类型的爬虫行为可以忽略掉。做人留一线，日后好相见。

但是对于影响网站服务器运行的高频爬虫行为，高防服务器必须采取措施。结合用户和IP信息，对相关用户或IP进行处理。

4. 协议里申明权利

网站的所有者必须在网站协议或用户协议里申明，允许正常的浏览、访问和数据获取，对于异常、高频、威胁网站服务器稳定的行为，将保留进一步处理的权利。

上述内容就是python爬虫如何进行识别，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注亿速云行业资讯频道。

向AI问一下细节

猜你喜欢