我已經學習了幾個星期的LDA和Topic模型。但由於我的數學能力很差,我無法完全理解它的內部算法。我使用了GibbsLDA實現,輸入了很多文檔,並設置了題目數爲100,我得到了一個名爲「final.theta」的文件,其中存儲了每個文檔中每個主題的主題比例。這個結果是好的,我可以使用主題比例來做很多其他事情。 但是,當我嘗試在LDA上Blei的C語言實現時,我只有一個名爲final.gamma的文件,但我不知道如何將此文件轉換爲主題比例樣式。 任何人都可以幫助我。 我瞭解到,LDA模型有很多改進的版本(如CTM,HLDA),如果我能找到類似於LDA的主題模型,我的意思是當我輸入大量文檔時,它可以直接輸出主題比例文檔。 非常感謝!LDA和主題模型
Q
LDA和主題模型
4
A
回答
1
我覺得跟Blei執行的問題是,你正在運行做變推論:
$ LDA INF [參數...]
當你想要做的話題估計,與:
$ LDA EST [參數...]
一旦運行,就會出現無論是在當前目錄或由可選的最後一個參數指定的目錄中的文件「final.beta」。然後運行包含在tar中的python腳本「topics.py」。這裏的自述:http://www.cs.princeton.edu/~blei/lda-c/readme.txt描述了這一切,尤其是部分B和D.
(如果這仍然沒有任何意義,讓我知道)
至於改進,如CTM等:我不知道知道關於HLDA的任何事情,但我過去曾使用過LDA和CTM,我可以說這兩者都不比其他更好 - 這是對不同數據更好的一種情況。 CTM假定文檔是相關的,並且只要它是真實的,就使用該假設來改進結果。
希望這會有所幫助!
0
要獲得E [θ]只是規範化每一行內的gammas。它來自Dirichlet分佈的性質。
相關問題
- 1. 主題建模:LDA,詞頻每個主題和Wordcloud
- 2. R主題建模:lda模型標註功能
- 3. 用於Python中主題建模的LDA
- 4. 如何從gensim打印LDA主題模型? Python
- 5. Gensim LDA主題分配
- 6. 帶火花的LDA模型
- 7. R LDA主題建模:結果主題包含非常相似的詞
- 8. LDA/LSI在Gensim中使用預定義主題列表進行主題建模
- 9. 加載計算的LDA模型並打印每個主題最常用的詞
- 10. 爲新數據預測LDA主題
- 11. 只有LDA獲取主題條款
- 12. 使用Spark LDA可視化主題
- 13. LDA - 爲主題分配關鍵字
- 14. 在Python中命名LDA主題
- 15. 主題建模與機器學習與LDA
- 16. 推斷標記的LDA/pLDA [主題建模工具箱]
- 17. 如何刪除主題建模(LDA)不必要的信息
- 18. 在線學習Spark中的LDA模型
- 19. 核心數據模型非存儲模型和主題演講?
- 20. 主鍵和ER模型
- 21. Magento的主題和模板
- 22. 選擇模板和主題
- 23. 如何使用gensim使用經過訓練的LDA模型預測新查詢的主題?
- 24. MVVM視圖模型和模型問題
- 25. 查找Python/R中LDA之後的不同主題的數量
- 26. 如何在應用LDA後自動標記主題
- 27. 如何從text2vec獲取主題概率表LDA
- 28. 使用Mahout來訓練LDA並檢索它的主題
- 29. 在scikit中學習LDA中的主題詞分佈
- 30. 蟒蛇scikit學習,讓每個主題文檔LDA
+1爲LDA參考 - 這是一個新的想法給我。謝謝。 – duffymo 2012-03-07 13:11:59