2015-10-20 75 views
0

我正在嘗試使用carrot2 API將日語文檔集羣化。它拋出了這個WARN:carrot2 api不支持日語

org.carrot2.text.linguistic.DefaultTokenizerFactory:Tokenizer for Japanese(ja)不可用。這可能會降低日語內容的羣集質量。

因此,羣集過程失敗,所有文檔都屬於「其他主題」羣集。

有沒有幫助解決這個問題?

在此先感謝。

回答

0

Carrot 可用的開源算法很不幸不支持日文。這個常數被添加來覆蓋日後可能的支持。

或者,你可以嘗試運行胡蘿蔔使用自定義的語言管道,在胡蘿蔔中UsingCustomLanguageModel示例類的Java API分佈顯示如何做到這一點。

+0

我知道了。但他們支持創建自定義語言模型來自定義文本分析器。但是,由於carrot2 api缺乏準則和文檔,所以我很難覆蓋他們的文本分析器。是否有任何文檔/示例(詳細)用於覆蓋語言模型? –

+0

好點。我編輯了答案,將鏈接添加到自定義代碼示例中。 –