这篇文章主要讲解了“网络爬虫常见的抓取方式有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“网络爬虫常见的抓取方式有哪些”吧!
1、宽度优先性遍历策略(BreathFirst)。
在待爬取URL队列结尾处直接添加新下载网页中包含的链接,这是宽度优先性遍历的核心。这就是说,这个方法并不清楚地提出和使用网页重要性的度量方法,只是机械地提取新下载的网页的链接,然后附加到待爬取URL队列,作为对URL进行下载。
2、OCIP策略(OnlinePageImporteComputation,在线页面重要性计算)。
它可被视为一种改进的PageRank算法。开始执行该算法之前,每个网页都提供相同的“现金”(cash),无论何时下载一个网页P,P将自己所拥有的“现金”平均分配给页面中包含的链接页面,清空自己的现金。对待爬取URL队列中的网页,根据手头持有的现金数额排序,优先下载那些现金最充裕的网页。
OCIP和PageRank从大框架上基本上是一致的,不同之处是:PageRank每次都需要迭代计算,OCIP策略不需要迭代过程,因此计算速度比PageRank快得多,适合实时计算使用。计算时,PageRank存在向无链接关系网页的远距离跳转过程,OCIP并不具备这个因素。试验表明,OCIP是一种良好的重要性度量策略,其效果略优于宽度优先遍历策略。
3、大站优先性策略(LargerSitesFirst)。
大站优先性策略的思想非常直接:以站点为单位衡量网页的重要性,对于要爬取URL队列中的网页,根据所属网站分类,如果哪个网站需要下载最多页面,则优先下载这些链接。它的基本思路是倾向于下载大型网站,因为大型网站通常包含更多的网页。考虑到大网站往往是知名企业的内容,其网页质量普遍较高,所以这种思路虽然简单,但有一定的依据。
感谢各位的阅读,以上就是“网络爬虫常见的抓取方式有哪些”的内容了,经过本文的学习后,相信大家对网络爬虫常见的抓取方式有哪些这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。