2016-11-16 82 views
1

我是新主題建模。 我的目標是從文檔中找到關鍵主題。我打算使用lda來達到這個目的。但是在lda中,主題的數量應該是預定義的。我相信如果來自某個其他域的文檔不在訓練語料庫中,它將不會給出正確的結果。有其他解決方案嗎?我的想法是否正確?主題模型中的主題動態數量

+0

當你說「一個文件」時,你的意思是隻有一個文件嗎?與LDA主題建模纔有意義,當你有包含許多文檔的語料庫。另請注意,主題建模中的「主題」具有相當具體的含義,與「標籤任務」不同。 – jknappen

回答

1

兩個很好的學習主題的候選人是潛在Dirichlet分配(LDA)和分層Dirichlet過程(HDP)主題模型。

對於LDA,主題K的數量是固定的並且假定提前知道。快速推理算法,比如上線變貝葉斯在scikitgensim啓用非常大的數據集(例如紐約時報或維基百科)大型語料庫通過培訓的培訓和設置K高,我們就能避免這個問題來實現(VB)算法過度擬合併從示例文檔中學習有意義的主題。對於LDA,交叉驗證通常用於設置K,方法是評估不同主題數量的困惑度並選擇最小化困惑度的K值。

可替代地,HDP主題模型(在gensim實現)自動地學習從數據項目的數目。通過設置濃度參數和截斷水平,模型可以推斷主題的數量。高效的推理算法,如在線變推斷的HDP啓用大規模的數據集和有意義的主題發現培訓。