如何用LDA/pLSA推斷新文檔的主題分佈？

當我使用pLSA/LDA這樣的主題模型時，我有一個問題：在我們獲得每個主題中每個單詞的分佈後，如何推斷新文檔的主題分佈？我在使用LDA時嘗試過「摺疊」Gibbs抽樣，但是當看不見的文檔非常短時，此方法不起作用，因爲該主題隨機分配給文檔中包含的每個單詞。例如，考慮具有兩個主題的模型，存在令牌w，其中p（w | z1）= 0.09並且p（w | z2）= 0.01。那麼一個只含有一個單詞w的文檔，它的p（z | d）大多是（1.0,0），有時是（0,1.0），因爲某種程度上採樣過程會將w的主題分配給topic2。我們如何處理這種情況？如何用LDA/pLSA推斷新文檔的主題分佈？

來源

2015-11-03 starays

我不確定你的意思是「隨機性」，因爲在應用Gibbs抽樣後，主題不應該是隨機的，它們應該是有意義的。也許你執行算法的次數少於必要的次數？

此外，你只有兩個主題的情況下，概率之和應爲1 這似乎是合乎邏輯，如果對於一個給定的令牌瓦特的概率分別是爲Z1和Z2 0.9和0.1，然後這個詞的90％被分類到z1，10％被分類到z2。雖然只有w的文件是極端情況，但我相信上述情況仍然存在。

我完全不瞭解您的問題，但也有其他方法來近似LDA，例如變分算法。

This可能會幫助您對新實例進行推理。

來源

2015-12-02 16:58:46 KLaz

如何用LDA/pLSA推斷新文檔的主題分佈？

回答

相關問題