2017-06-03 75 views
0

對於Apache Solr和Carrot2,我都很新。我正在嘗試使用Solr對很多輸入文件進行索引。最終目標是對文檔進行分組。使用Apache Solr和Carrot2進行羣集

我不清楚聚類是由Solr還是由carrot2工作臺完成的?

任何人都可以在這裏指導我嗎?

回答

1

它可以通過兩種方式完成。

在一個設置中,Carrot2 Workbench可以從Solr獲取搜索結果(就像從任何其他搜索引擎一樣)並對它們進行聚類。這條路線可能是最簡單的開始,您只需提供Solr服務的URL和字段名稱即可爲羣集提供內容。

或者,您可以在Solr中配置search results clustering plugin,它將在您的Solr服務器中執行羣集,並將搜索結果羣集包含爲Solr搜索響應的一部分。

在這兩種情況下,聚類都應用於文檔的存儲內容(原始文本),因此在Solr內聚集文檔沒有太大的性能優勢,或許可以減少序列化/反序列化開銷。

最後,有一個過時的文件澄清了兩個Carrot2-Solr integration strategies

+0

我正在使用solr中的carrot2extension獲取集羣。默認情況下,它會計算前100個文檔的集羣。如果我嘗試在請求失敗的更多文檔上執行此操作。你有解決這個問題的想法嗎? –