温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何分析Robots.txt 配置

发布时间:2022-01-14 22:17:29 来源:亿速云 阅读:199 作者:柒染 栏目:云计算

这期内容当中小编将会给大家带来有关如何分析Robots.txt 配置,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

Robots.txt 是一个爬虫规范协议,看名称就知道它是一个 txt 的文本。放在网站的根目录下。robots.txt 文件由一条或多条规则组成。每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径。它主要的作用就是来告诉爬虫,我这个网站,你哪些你能看,哪些你不能看的一个协议。

如何分析Robots.txt 配置

Robots.txt 有一个规范,或者说是规则,也或者说是语法。

  • robots.txt 必须是 ASCII 或 UTF-8 文本文件。不允许包含其他字符。

  • robots.txt 文件由一条或多条规则组成。

  • 每条规则由多条指令(说明)组成,每条指令各占一行。

  • 每条规则包含这些信息:此规则的适用对象(即用户代理);代理可以访问的目录或文件,和/或;代理无法访问的目录或文件。

  • 系统会按照从上到下的顺序处理这些规则,而且一个用户代理只能匹配 1 个规则集(即与相应用户代理匹配的首条最具体的规则)。

  • 系统的默认假设是:用户代理可以抓取所有未被 Disallow: 规则禁止访问的网页或目录。

  • 规则区分大小写。

  • 一个网站只能有 1 个 robots.txt 文件。

Robots.txt 中主要有 4 个关键词。放在行首,用英文“:”分割内容部分或指令体。

  • User-agent 网页抓取工具的名称

  • Disallow 不应抓取的目录或网页

  • Allow 应抓取的目录或网页

  • Sitemap 网站的站点地图的位置

下面,我举几个例子,方便大家认识。

如何分析Robots.txt 配置

上面的配置将分别禁止它们对网站内容的爬取。一个爬虫的 Disallow 可以有多个,比如百度网盘中的配置。

如何分析Robots.txt 配置  
上图就是百度网盘 Robots.txt 配置示例。如果要禁止全部的爬虫,则配置下面的内容即可。  

如何分析Robots.txt 配置

Robots.txt 也支持模糊匹配,比如下面的配置。禁止爬取以 .xls 文件结尾的内容。

如何分析Robots.txt 配置

注意,如果不配置,或者配置的内容,如下所说,则代表全部允许。

如何分析Robots.txt 配置

除了 Robots.txt 之外,我们也可以通过 Nginx 的其他技术手段来禁止爬出的抓取。但是相对来说,配置 Robots.txt 的效率最高!

上述就是小编为大家分享的如何分析Robots.txt 配置了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI