2017-04-06 91 views
0

我有一個使用MALLET訓練的LDA主題模型,但我想計算兩個文檔之間的餘弦相似度以獲得相似度,但我不確定哪個文件是MALLET輸出的,我計算餘弦值。如何獲得MALLET中兩個文檔之間的餘弦相似度?

我的餘弦相似度函數工作正常,但只是不確定我在比較在馬鞍山。

任何幫助,將不勝感激!

回答

2

每個文檔將由它的主題組成來表示,所以你必須比較這些文檔。使用--output-doc-topics參數來獲取所需的文件。

行是文檔,列是屬於文檔的每個主題的比例。在當前版本(2.0.8)中,按主題ID升序排列 - 否則按從高到低的概率排序。

除了餘弦相似之外,您還應該考慮不同的指標,例如, (對稱)Kullback-Leibler散度或Hellinger距離。