这期内容当中小编将会给大家带来有关如何分析Robots.txt 配置,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
Robots.txt 是一个爬虫规范协议,看名称就知道它是一个 txt 的文本。放在网站的根目录下。robots.txt 文件由一条或多条规则组成。每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径。它主要的作用就是来告诉爬虫,我这个网站,你哪些你能看,哪些你不能看的一个协议。
Robots.txt 有一个规范,或者说是规则,也或者说是语法。
robots.txt 必须是 ASCII 或 UTF-8 文本文件。不允许包含其他字符。
robots.txt 文件由一条或多条规则组成。
每条规则由多条指令(说明)组成,每条指令各占一行。
每条规则包含这些信息:此规则的适用对象(即用户代理);代理可以访问的目录或文件,和/或;代理无法访问的目录或文件。
系统会按照从上到下的顺序处理这些规则,而且一个用户代理只能匹配 1 个规则集(即与相应用户代理匹配的首条最具体的规则)。
系统的默认假设是:用户代理可以抓取所有未被 Disallow: 规则禁止访问的网页或目录。
规则区分大小写。
一个网站只能有 1 个 robots.txt 文件。
Robots.txt 中主要有 4 个关键词。放在行首,用英文“:”分割内容部分或指令体。
User-agent 网页抓取工具的名称
Disallow 不应抓取的目录或网页
Allow 应抓取的目录或网页
Sitemap 网站的站点地图的位置
下面,我举几个例子,方便大家认识。
上面的配置将分别禁止它们对网站内容的爬取。一个爬虫的 Disallow 可以有多个,比如百度网盘中的配置。
Robots.txt 也支持模糊匹配,比如下面的配置。禁止爬取以 .xls 文件结尾的内容。
注意,如果不配置,或者配置的内容,如下所说,则代表全部允许。
除了 Robots.txt 之外,我们也可以通过 Nginx 的其他技术手段来禁止爬出的抓取。但是相对来说,配置 Robots.txt 的效率最高!
上述就是小编为大家分享的如何分析Robots.txt 配置了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。