使用Apache Solr和Carrot2進行羣集

對於Apache Solr和Carrot2，我都很新。我正在嘗試使用Solr對很多輸入文件進行索引。最終目標是對文檔進行分組。使用Apache Solr和Carrot2進行羣集

我不清楚聚類是由Solr還是由carrot2工作臺完成的？

任何人都可以在這裏指導我嗎？

它可以通過兩種方式完成。

在一個設置中，Carrot2 Workbench可以從Solr獲取搜索結果（就像從任何其他搜索引擎一樣）並對它們進行聚類。這條路線可能是最簡單的開始，您只需提供Solr服務的URL和字段名稱即可爲羣集提供內容。

或者，您可以在Solr中配置search results clustering plugin，它將在您的Solr服務器中執行羣集，並將搜索結果羣集包含爲Solr搜索響應的一部分。

在這兩種情況下，聚類都應用於文檔的存儲內容（原始文本），因此在Solr內聚集文檔沒有太大的性能優勢，或許可以減少序列化/反序列化開銷。

最後，有一個過時的文件澄清了兩個Carrot2-Solr integration strategies。

2017-06-05 13:48:01

我正在使用solr中的carrot2extension獲取集羣。默認情況下，它會計算前100個文檔的集羣。如果我嘗試在請求失敗的更多文檔上執行此操作。你有解決這個問題的想法嗎？ –

回答