配图本来计划选择一种爬虫的,可是看到百度搜到的图片好恶心,所以作罢,还是还原网络世界真实的爬虫。
爬虫应该是随着搜索引擎技术出现的。爬虫技术主要是用来抓取万维网网页内容的主要技术,被爬到的网页会被收录进入搜索引擎。一般情况下,企业作为门户网站的话是非常希望爬虫爬到,然后收录进去,这样用户搜索的时候就会被显示出来,一方面随着搜索技术飞速发展,www业务飞速发展,各种各样的爬虫,***到互联网中,爬虫对于某些网站来说是一种流量的浪费。比如某宝是坚决不让某度来爬取的,一方面是要保障流量来源,另一方面要保障流量正常,因为www网站中恶意爬虫会影响正常流量访问。
于是robots协议应运而生。
“引用”Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
防止spider任意抓取:(禁止任何爬虫进行抓取网站的任何目录)
spider user-agent:*
disallow:/
这些规则是支持正则的,所以会非常灵活。对于业务型的页面可以设置为不可被抓取。
还有一点最重要的:就是要相识的robots协议生效,就必须web访问的时候可以访问到robots.txt,并且robots位于网站的根目录下。例如:
www.taobao.com/robots.txt就可以看到淘宝的robots协议。
最后一点,如果你不想要在实名网站留下一些huai的证据,那么也不要寄希望于网站禁止爬虫,那么请注意保持良好的上网行为。
支付宝-打赏:
微信-打赏:
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。