我試圖使用R中的LDA將IT支持票據分類到相關主題中。在LDA中改進文檔主題概率
我的語料庫有:5,550個文檔和1882個術語。我開始與12000條款,但刪除後,我用1800個單詞降落常見的停止詞和其他噪音詞。
檢查LDAvis輸出後,算法返回的結果/主題非常好,我通過檢查語料庫的樣本進行驗證。我在輸出字是獨家的主題,一旦可以在主題一讀
但檢查文檔 - 專題概率矩陣到達,在矩陣分配概率非常低,大部分的案例(理想情況下,它應該是高的,因爲我們得到的主題是好的)。
我已經嘗試了以下事項試圖主題,增加迭代但沒有什麼不同沒有幫助到現在。
如果我增加在語料庫方面的數量(而不是刪除一些的話),然後我結束了話題
我的代碼和LDA參數的不好的表現是:
burnin <- 4000
iter <- 2000
thin <- 500
seed <-list(2003,5,63,100001,765)
nstart <- 5
best <- TRUE
k <- 29 ### established by log of likelihood function
ldaOut <-LDA(dtm,k, method="Gibbs",
control=list(nstart=nstart, seed = seed,
best=best, burnin = burnin, iter = iter, thin=thin,keep=keep))
的LDA輸出的STR爲:
[email protected] seedwords : NULL
[email protected] z : int [1:111776] 12 29 3 27 11 12 14 12 12 24 ...
[email protected] alpha : num 1.72
[email protected] control :Formal class 'LDA_Gibbscontrol' [package "topicmodels"] with 14 slots
[email protected] delta : num 0.1
[email protected] iter : int 500
[email protected] thin : int 500
[email protected] burnin : int 4000
[email protected] initialize : chr "random"
[email protected] alpha : num 1.72
[email protected] seed : int [1:5] 2003 5 63 100001 765
[email protected] verbose : int 0
[email protected] prefix : chr
[email protected] save : int 0
[email protected] nstart : int 5
[email protected] best : logi TRUE
[email protected] keep : int 0
[email protected] estimate.beta: logi TRUE
[email protected] k : int 29
[email protected] terms : chr [1:1882] "–auto""| __truncated__ "–block""|
[email protected] documents : chr [1:5522] "1" "2" "3" "4" ...
[email protected] beta : num [1:29, 1:1882] -10.7 -10.6 -10.6 -10.5 -10.6 ...
[email protected] gamma : num [1:5522, 1:29] 0.0313 0.025 0.0236 0.0287 0.0287
[email protected] wordassignments:List of 5
..$ i : int [1:73447] 1 1 1 1 1 2 2 2 2 2 ...
..$ j : int [1:73447] 175 325 409 689 1185 169 284 316 331 478 ...
..$ v : num [1:73447] 12 29 3 27 4 12 12 12 3 3 ...
..$ nrow: int 5522
..$ ncol: int 1882
..- attr(*, "class")= chr "simple_triplet_matrix"
[email protected] loglikelihood : num -408027
[email protected] iter : int 500
[email protected] logLiks : num(0)
[email protected] n : int 111776
任何人都可以GUID如何提高文檔 - 主題概率或者我們可以做些什麼來改進算法。
免責聲明:我做LDA的第一次,所以我會很感激,如果你能給我一些消息來源在哪裏可以找到所需的信息
這是一個關於數據分析而不是編程的問題。你應該在[stats.se]或其他更合適的站點上提問這樣的問題。 – MrFlick