當我使用pLSA/LDA這樣的主題模型時,我有一個問題:在我們獲得每個主題中每個單詞的分佈後,如何推斷新文檔的主題分佈?我在使用LDA時嘗試過「摺疊」Gibbs抽樣,但是當看不見的文檔非常短時,此方法不起作用,因爲該主題隨機分配給文檔中包含的每個單詞。例如,考慮具有兩個主題的模型,存在令牌w,其中p(w | z1)= 0.09並且p(w | z2)= 0.01。那麼一個只含有一個單詞w的文檔,它的p(z | d)大多是(1.0,0),有時是(0,1.0),因爲某種程度上採樣過程會將w的主題分配給topic2。我們如何處理這種情況?如何用LDA/pLSA推斷新文檔的主題分佈?
0
A
回答
0
我不確定你的意思是「隨機性」,因爲在應用Gibbs抽樣後,主題不應該是隨機的,它們應該是有意義的。也許你執行算法的次數少於必要的次數?
此外,你只有兩個主題的情況下,概率之和應爲1 這似乎是合乎邏輯,如果對於一個給定的令牌瓦特的概率分別是爲Z1和Z2 0.9和0.1,然後這個詞的90%被分類到z1,10%被分類到z2。雖然只有w的文件是極端情況,但我相信上述情況仍然存在。
我完全不瞭解您的問題,但也有其他方法來近似LDA,例如變分算法。
This可能會幫助您對新實例進行推理。
相關問題
- 1. 如何使用gensim LDA獲取文檔的完整主題分佈?
- 2. 如何獲取默認章魚主題中的最新推文?
- 3. 文字處理,如何使用LDA分配1個主題 - > 1個文檔?
- 4. doc2vec - 如何更快地推斷文檔向量?
- 5. 使用Rails部分中斷文檔樹?
- 6. 如何使用Watson Discovery在特定主題/主題標籤上搜索推文?
- 7. 如何推斷node.js分析結果?
- 8. 如何推送新分支?
- 9. 通過從現有分佈的分佈抽樣來推斷缺失值
- 10. 如何獲取新文檔的主題矢量並與Mallet中的預定義主題模型進行比較?
- 11. 如何在asp.net中顯示特定主題上的最新推文?
- 12. 爲什麼通過MALLET主題推斷獲得與單個和批量文檔不同的結果?
- 13. 如何判斷活動文檔是否爲文本文檔?
- 14. 分佈式系統中的主題
- 15. 主題分佈的不同維度
- 16. 來自特定主題標籤的推文並從特定應用發佈
- 17. 主題開發的Wordpress脫機文檔
- 18. 推斷標記的LDA/pLDA [主題建模工具箱]
- 19. 如何在BrowserField中加載文檔時推送新屏幕?
- 20. C#主題 - 中斷
- 21. 可以從XML文檔的結構推斷出什麼?
- 22. 如何將2個主題分支重新分配到新分支上?
- 23. 分佈式中斷
- 24. 如何使用`update`將新元素推入mongo文檔中的數組?
- 25. 谷歌地圖文檔使用不推薦的PHP - 我如何更新它?
- 26. 如何將功能分支中的文件推送到遠程的主分支?
- 27. JDK8類型推斷問題
- 28. Mendeley - 如何使用新文檔獲得分頁響應API
- 29. 如何更新DocumentDb文檔?
- 30. 如何更新Mongodb文檔?