2016-07-22 80 views
4

根據Nutch消息,Nutch的最新版本2.3.1與Solr 4.10.3兼容,這是Solr的非常舊版本。Solr 6和Nutch 2.3.1集成

我們可以整合Solr 6和Nutch 2.3.1。如果將Solr 6集成,將會有什麼缺點?有人試過這個?

+0

Nutch的包括它需要在所有領域的schema.xml $ NUTCH_HOME \的conf \ schema.xml中。 11個月前升級到solr 4.10.2的地方是https://github.com/apache/nutch/commit/a67cbc7d99c3b4172e690408f0abc54a098348bc – rleir

回答

9

這是一個老問題,但我剛剛得到了Nutch 1.12與Solr 6.3.0的交談。所需的架構/ solrconfig變化應該是Nutch的2.X相同的,所以這裏就是我所做的:

下載和產品都提取到某個目錄,例如〜/ mycrawler,然後進入Solr的目錄和Nutch的創建一個核心:

solr-6.3.0/bin $ ./solr start 
solr-6.3.0/bin $ ./solr create_core -c nutch -d basic_configs 
solr-6.3.0/bin $ ./solr stop 

這將創建Solr的-6.3.0 /服務器/ Solr的/ Nutch的地方模式等將設。現在,我們需要與Nutch的提供的schema.xml中取出新的自動管理架構定義和替換:

solr-6.3.0/server/solr/nutch/conf $ rm managed-schema 
solr-6.3.0/server/solr/nutch/conf $ cp ~/mycrawler/apache-nutch-1.12/conf/schema.xml . 

現在編輯schema.xml中和去除的enablePositionIncrements="true"所有實例都<filter class="solr.StopFilterFactory" ignoreCase="true" ...定義。

而且在solr-6.3.0/server/solr/nutch/conf/solrconfig.xml,評論這些typeMapping塊,所以你得到:

<processor class="solr.AddSchemaFieldsUpdateProcessorFactory"> 
    <str name="defaultFieldType">strings</str> 
    <!-- 
    <lst name="typeMapping"> 
    <str name="valueClass">java.lang.Boolean</str> 
    <str name="fieldType">booleans</str> 
    </lst> 
    <lst name="typeMapping"> 
    <str name="valueClass">java.util.Date</str> 
    <str name="fieldType">tdates</str> 
    </lst> 
    <lst name="typeMapping"> 
    <str name="valueClass">java.lang.Long</str> 
    <str name="valueClass">java.lang.Integer</str> 
    <str name="fieldType">tlongs</str> 
    </lst> 
    <lst name="typeMapping"> 
    <str name="valueClass">java.lang.Number</str> 
    <str name="fieldType">tdoubles</str> 
    </lst> 
    --> 
</processor> 

現在再次啓動服務器:

solr-6.3.0/bin $ ./solr start 

如果你去管理GUI,它應該顯示核心開始時沒有進一步的模式問題。

現在抓取腳本可以運行,併成功寫入到我們的前沿Solr的(這可能是對Nutch的2略有不同):

./crawl -i \ 
    -D solr.server.url=http://localhost:8983/solr/nutch \ 
    ~/mycrawler/nutch_work/seed \ 
    ~/mycrawler/nutch_work/crawl \ 
    1 
+1

我在瀏覽器UI中遇到以下異常。任何想法? 'org.apache.solr.common.SolrException:org.apache.solr.common.SolrException:無法核心Nutch的加載的conf:無法加載架構/server/solr/nutch/conf/schema.xml:插件[schema.xml]分析器/過濾器的初始化失敗:實例化類的錯誤:'org.apache.lucene.analysis.core.StopFilterFactory'' –

+3

聽起來像您忘記刪除StopFilterFactory定義中的enablePositionIncrements =「true」之一。 ..有一堆都在schema.xml –

+0

正是......解決了。 –