在LDA中改進文檔主題概率

我試圖使用R中的LDA將IT支持票據分類到相關主題中。在LDA中改進文檔主題概率

我的語料庫有：5,550個文檔和1882個術語。我開始與12000條款，但刪除後，我用1800個單詞降落常見的停止詞和其他噪音詞。

檢查LDAvis輸出後，算法返回的結果/主題非常好，我通過檢查語料庫的樣本進行驗證。我在輸出字是獨家的主題，一旦可以在主題一讀

但檢查文檔 - 專題概率矩陣到達，在矩陣分配概率非常低，大部分的案例（理想情況下，它應該是高的，因爲我們得到的主題是好的）。

我已經嘗試了以下事項試圖主題，增加迭代但沒有什麼不同沒有幫助到現在。

如果我增加在語料庫方面的數量（而不是刪除一些的話），然後我結束了話題

我的代碼和LDA參數的不好的表現是：

burnin <- 4000 iter <- 2000 thin <- 500 seed <-list(2003,5,63,100001,765) nstart <- 5 best <- TRUE k <- 29 ### established by log of likelihood function ldaOut <-LDA(dtm,k, method="Gibbs", control=list(nstart=nstart, seed = seed, best=best, burnin = burnin, iter = iter, thin=thin,keep=keep))

的LDA輸出的STR爲：

[email protected] seedwords : NULL [email protected] z : int [1:111776] 12 29 3 27 11 12 14 12 12 24 ... [email protected] alpha : num 1.72 [email protected] control :Formal class 'LDA_Gibbscontrol' [package "topicmodels"] with 14 slots [email protected] delta : num 0.1 [email protected] iter : int 500 [email protected] thin : int 500 [email protected] burnin : int 4000 [email protected] initialize : chr "random" [email protected] alpha : num 1.72 [email protected] seed : int [1:5] 2003 5 63 100001 765 [email protected] verbose : int 0 [email protected] prefix : chr [email protected] save : int 0 [email protected] nstart : int 5 [email protected] best : logi TRUE [email protected] keep : int 0 [email protected] estimate.beta: logi TRUE [email protected] k : int 29 [email protected] terms : chr [1:1882] "–auto""| __truncated__ "–block""| [email protected] documents : chr [1:5522] "1" "2" "3" "4" ... [email protected] beta : num [1:29, 1:1882] -10.7 -10.6 -10.6 -10.5 -10.6 ... [email protected] gamma : num [1:5522, 1:29] 0.0313 0.025 0.0236 0.0287 0.0287 [email protected] wordassignments:List of 5 ..$ i : int [1:73447] 1 1 1 1 1 2 2 2 2 2 ... ..$ j : int [1:73447] 175 325 409 689 1185 169 284 316 331 478 ... ..$ v : num [1:73447] 12 29 3 27 4 12 12 12 3 3 ... ..$ nrow: int 5522 ..$ ncol: int 1882 ..- attr(*, "class")= chr "simple_triplet_matrix" [email protected] loglikelihood : num -408027 [email protected] iter : int 500 [email protected] logLiks : num(0) [email protected] n : int 111776

任何人都可以GUID如何提高文檔 - 主題概率或者我們可以做些什麼來改進算法。

免責聲明：我做LDA的第一次，所以我會很感激，如果你能給我一些消息來源在哪裏可以找到所需的信息

來源

2016-09-23 Puneet

這是一個關於數據分析而不是編程的問題。你應該在[stats.se]或其他更合適的站點上提問這樣的問題。 – MrFlick

爲什麼需要大概率？如果你有一個大的字典，你可能會從LDA得到非常小的概率值，這很好。就每個主題中的單詞排名而言，您都非常忙於獲得優秀的主題模型。如果你有興趣從非常基礎的學習主題模型，我鼓勵你看到這張幻燈片（http://www.cs.virginia.edu/~hw5x/Course/CS6501-Text-Mining/_site/docs/topic%20models.pptx）。

來源

2016-10-24 08:25:58

在LDA中改進文檔主題概率

回答

相關問題