温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Nutch1.9如何安装

发布时间:2021-11-12 14:04:21 来源:亿速云 阅读:130 作者:小新 栏目:云计算

小编给大家分享一下Nutch1.9如何安装,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

一、  Nutch安装并整合到Solr

1、下载并解压Nutch(此处使用版本1.9)      http://nutch.apache.org/

2、修改apache-nutch-1.9/conf/nutch-site.xml

<property>

<name>http.agent.name</name>

<value>My Nutch Spider</value>

</property>

3、添加需要爬取的urls种子,创建apache-nutch-1.9/urls/seed.txt:

此处添加一条url(如:http://www.oschina.net/)

4、Nutch与Solr整合需要替换Solr Home中的Schema.xml

首先做好备份:

mv  solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

                     将nutch中的schema-solr4.xml copy到solr_home中,如下:

cp  apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

5、修改solr_home/solr/collection1/conf/schema.xml,

在 <field name="id"下面加上

<field name="_version_" type="long" indexed="true" stored="true"/>

                            由于覆盖了之前配置好的IK分词器。所以需要重新配置:

在<types>中增加如下内容:

            <fieldType name="text_ik" class="solr.TextField">

<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

                   </fieldType>

将需要用到IK分词的字段的type值修改以上定义的name

                               <field name="content" type="text_ik" stored="true" indexed="true"/>

<field name="title" type="text_ik" stored="true" indexed="true"/>

<field name="text" type="text_ik" stored="false" indexed="true" multiValued="true"/>

<field name="anchor" type="text_ik" stored="true" indexed="true"/>

到此处配置完成。

测试爬取:

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

当完成后,打开solr的管理界面,点击query将会看到nutch爬取的数据

以上是“Nutch1.9如何安装”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI