主題模型中的主題動態數量

我是新主題建模。我的目標是從文檔中找到關鍵主題。我打算使用lda來達到這個目的。但是在lda中，主題的數量應該是預定義的。我相信如果來自某個其他域的文檔不在訓練語料庫中，它將不會給出正確的結果。有其他解決方案嗎？我的想法是否正確？主題模型中的主題動態數量

來源

2016-11-16 Jishad AV

當你說「一個文件」時，你的意思是隻有一個文件嗎？與LDA主題建模纔有意義，當你有包含許多文檔的語料庫。另請注意，主題建模中的「主題」具有相當具體的含義，與「標籤任務」不同。 – jknappen

兩個很好的學習主題的候選人是潛在Dirichlet分配（LDA）和分層Dirichlet過程（HDP）主題模型。

對於LDA，主題K的數量是固定的並且假定提前知道。快速推理算法，比如上線變貝葉斯在scikit和gensim啓用非常大的數據集（例如紐約時報或維基百科）大型語料庫通過培訓的培訓和設置K高，我們就能避免這個問題來實現（VB）算法過度擬合併從示例文檔中學習有意義的主題。對於LDA，交叉驗證通常用於設置K，方法是評估不同主題數量的困惑度並選擇最小化困惑度的K值。

可替代地，HDP主題模型（在gensim實現）自動地學習從數據項目的數目。通過設置濃度參數和截斷水平，模型可以推斷主題的數量。高效的推理算法，如在線變推斷的HDP啓用大規模的數據集和有意義的主題發現培訓。

來源

2017-05-05 21:48:42

主題模型中的主題動態數量

回答

相關問題