2015-11-03 61 views
0

當我使用pLSA/LDA這樣的主題模型時,我有一個問題:在我們獲得每個主題中每個單詞的分佈後,如何推斷新文檔的主題分佈?我在使用LDA時嘗試過「摺疊」Gibbs抽樣,但是當看不見的文檔非常短時,此方法不起作用,因爲該主題隨機分配給文檔中包含的每個單詞。例如,考慮具有兩個主題的模型,存在令牌w,其中p(w | z1)= 0.09並且p(w | z2)= 0.01。那麼一個只含有一個單詞w的文檔,它的p(z | d)大多是(1.0,0),有時是(0,1.0),因爲某種程度上採樣過程會將w的主題分配給topic2。我們如何處理這種情況?如何用LDA/pLSA推斷新文檔的主題分佈?

回答

0

我不確定你的意思是「隨機性」,因爲在應用Gibbs抽樣後,主題不應該是隨機的,它們應該是有意義的。也許你執行算法的次數少於必要的次數?

此外,你只有兩個主題的情況下,概率之和應爲1 這似乎是合乎邏輯,如果對於一個給定的令牌瓦特的概率分別是爲Z1和Z2 0.9和0.1,然後這個詞的90%被分類到z1,10%被分類到z2。雖然只有w的文件是極端情況,但我相信上述情況仍然存在。

我完全不瞭解您的問題,但也有其他方法來近似LDA,例如變分算法。

This可能會幫助您對新實例進行推理。

相關問題