Nutch数据集的目录具体内容是什么

发布时间：2021-12-30 14:11:39 阅读：132 作者：iii 栏目：云计算

开发者测试专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要介绍“Nutch数据集的目录具体内容是什么”，在日常操作中，相信很多人在Nutch数据集的目录具体内容是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Nutch数据集的目录具体内容是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

#导出crawldb

bin/nutch readdb data/crawldb/ -dump data/crawldb_dump

#查看crawldb

Nutch数据集的目录具体内容是什么

Crawldb内容主要包括，抓取状态、抓取此网页的时间、对此网页的重要度评分等url地址的详细信息。

#查看linkdb

Nutch数据集的目录具体内容是什么

#查看segments

一次爬行会产生很多个段(segment)，段存储的是爬虫在一次抓取过程中抓到的网页以及这些网页的索引。爬虫爬行时会根据crawldb中的链接关系按照一定的爬行策略生成每次抓取循环所需的预取列表(fetch list)，然后Fetcher类通过预取列表中的URL抓取这些网页并索引，然后将其存入段中。

#查看segments目录

Nutch数据集的目录具体内容是什么

Content：保存的是 fetcher 所抓取回来的源内容，html脚本

Nutch数据集的目录具体内容是什么

Crawl_fetch：包含每个抓取页面的状态

Nutch数据集的目录具体内容是什么

Crawl_generate:包含所抓取的网址列表

Nutch数据集的目录具体内容是什么

Crawl_parse: 包含网址的外部链接地址，用于更新crawldb数据库

Nutch数据集的目录具体内容是什么

Parse_data: 包含每个页面的外部链接和元数据

Nutch数据集的目录具体内容是什么

Parse_text: 包含每个抓取页面的解析文本

Nutch数据集的目录具体内容是什么

到此，关于“Nutch数据集的目录具体内容是什么”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注亿速云网站，小编会继续努力为大家带来更多实用的文章！

向AI问一下细节

猜你喜欢