在Nutch中配置爬虫深度可以通过修改nutch-site.xml文件中的相关属性来实现。以下是一些常用的配置选项:
<property>
<name>db.max.depth</name>
<value>3</value>
</property>
<property>
<name>db.ignore.external.links</name>
<value>true</value>
</property>
<property>
<name>db.ignore.external.links.mode</name>
<value>REGEX</value>
</property>
<property>
<name>fetcher.server.delay</name>
<value>1.0</value>
</property>
这些配置选项可以根据具体的需求进行调整,以实现更加灵活和有效的爬虫深度控制。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
推荐阅读:nutch爬虫速度如何优化