0
我正在嘗試使用carrot2 API將日語文檔集羣化。它拋出了這個WARN:carrot2 api不支持日語
org.carrot2.text.linguistic.DefaultTokenizerFactory:Tokenizer for Japanese(ja)不可用。這可能會降低日語內容的羣集質量。
因此,羣集過程失敗,所有文檔都屬於「其他主題」羣集。
有沒有幫助解決這個問題?
在此先感謝。
我正在嘗試使用carrot2 API將日語文檔集羣化。它拋出了這個WARN:carrot2 api不支持日語
org.carrot2.text.linguistic.DefaultTokenizerFactory:Tokenizer for Japanese(ja)不可用。這可能會降低日語內容的羣集質量。
因此,羣集過程失敗,所有文檔都屬於「其他主題」羣集。
有沒有幫助解決這個問題?
在此先感謝。
Carrot 可用的開源算法很不幸不支持日文。這個常數被添加來覆蓋日後可能的支持。
或者,你可以嘗試運行胡蘿蔔使用自定義的語言管道,在胡蘿蔔中UsingCustomLanguageModel示例類的Java API分佈顯示如何做到這一點。
我知道了。但他們支持創建自定義語言模型來自定義文本分析器。但是,由於carrot2 api缺乏準則和文檔,所以我很難覆蓋他們的文本分析器。是否有任何文檔/示例(詳細)用於覆蓋語言模型? –
好點。我編輯了答案,將鏈接添加到自定義代碼示例中。 –