carrot2 api不支持日語

我正在嘗試使用carrot2 API將日語文檔集羣化。它拋出了這個WARN：carrot2 api不支持日語

org.carrot2.text.linguistic.DefaultTokenizerFactory：Tokenizer for Japanese（ja）不可用。這可能會降低日語內容的羣集質量。

因此，羣集過程失敗，所有文檔都屬於「其他主題」羣集。

有沒有幫助解決這個問題？

在此先感謝。

Carrot 可用的開源算法很不幸不支持日文。這個常數被添加來覆蓋日後可能的支持。

或者，你可以嘗試運行胡蘿蔔使用自定義的語言管道，在胡蘿蔔中UsingCustomLanguageModel示例類的Java API分佈顯示如何做到這一點。

2015-10-24 20:20:24

我知道了。但他們支持創建自定義語言模型來自定義文本分析器。但是，由於carrot2 api缺乏準則和文檔，所以我很難覆蓋他們的文本分析器。是否有任何文檔/示例（詳細）用於覆蓋語言模型？ –

好點。我編輯了答案，將鏈接添加到自定義代碼示例中。 –

回答