我使用以下對數似然公式來比較文檔和聚類之間的相似度: log p(d | c)= sum(c(w,d)* log p(w | c )); (w,d)是文檔中一個詞的頻率,p(w | c)是由詞組c產生詞w的可能性。文檔聚類的似然相似性
問題是,基於這種相似性,文檔通常被分配到錯誤的集羣。如果我將文檔分配給log p(d | c)最高的集羣(因爲它通常是負值,我將採用-log p(d | c)),那麼它將成爲包含大量來自文件,但這些詞在羣集中的概率很低。 如果我將文檔分配給具有最低log p(d | c)的羣集,那麼它將是僅與一個文檔具有文檔相交的羣集。 有人能解釋我如何正確使用loglikelihood?我嘗試在java中實現這個功能。我已經看過谷歌學者,但在文本挖掘中沒有找到合適的對數似然解釋。 在此先感謝