2016-09-23 82 views
0

我試圖使用R中的LDA將IT支持票據分類到相關主題中。在LDA中改進文檔主題概率

我的語料庫有:5,550個文檔和1882個術語。開始與12000條款,但刪除後,我用1800個單詞降落常見的停止詞和其他噪音詞。

檢查LDAvis輸出後,算法返回的結果/主題非常好,我通過檢查語料庫的樣本進行驗證。我在輸出字是獨家的主題,一旦可以在主題一讀

但檢查文檔 - 專題概率矩陣到達,在矩陣分配概率非常低,大部分的案例(理想情況下,它應該是高的,因爲我們得到的主題是好的)。

我已經嘗試了以下事項試圖主題增加迭代但沒有什麼不同沒有幫助到現在。

如果我增加在語料庫方面的數量(而不是刪除一些的話),然後我結束了話題

我的代碼和LDA參數的不好的表現是:

burnin <- 4000 
iter <- 2000 
thin <- 500 
seed <-list(2003,5,63,100001,765) 
nstart <- 5 
best <- TRUE 
k <- 29 ### established by log of likelihood function 

ldaOut <-LDA(dtm,k, method="Gibbs", 
     control=list(nstart=nstart, seed = seed, 
         best=best, burnin = burnin, iter = iter, thin=thin,keep=keep)) 

的LDA輸出的STR爲:

[email protected] seedwords  : NULL 
[email protected] z    : int [1:111776] 12 29 3 27 11 12 14 12 12 24 ... 
[email protected] alpha   : num 1.72 
[email protected] control  :Formal class 'LDA_Gibbscontrol' [package "topicmodels"] with 14 slots 
[email protected] delta  : num 0.1 
[email protected] iter   : int 500 
[email protected] thin   : int 500 
[email protected] burnin  : int 4000 
[email protected] initialize : chr "random" 
[email protected] alpha  : num 1.72 
[email protected] seed   : int [1:5] 2003 5 63 100001 765 
[email protected] verbose  : int 0 
[email protected] prefix  : chr 
[email protected] save   : int 0 
[email protected] nstart  : int 5 
[email protected] best   : logi TRUE 
[email protected] keep   : int 0 
[email protected] estimate.beta: logi TRUE 
[email protected] k    : int 29 
[email protected] terms   : chr [1:1882] "–auto""| __truncated__ "–block""| 
[email protected] documents  : chr [1:5522] "1" "2" "3" "4" ... 
[email protected] beta   : num [1:29, 1:1882] -10.7 -10.6 -10.6 -10.5 -10.6 ... 
[email protected] gamma   : num [1:5522, 1:29] 0.0313 0.025 0.0236 0.0287 0.0287 
[email protected] wordassignments:List of 5 
..$ i : int [1:73447] 1 1 1 1 1 2 2 2 2 2 ... 
..$ j : int [1:73447] 175 325 409 689 1185 169 284 316 331 478 ... 
..$ v : num [1:73447] 12 29 3 27 4 12 12 12 3 3 ... 
..$ nrow: int 5522 
..$ ncol: int 1882 
..- attr(*, "class")= chr "simple_triplet_matrix" 
[email protected] loglikelihood : num -408027 
[email protected] iter   : int 500 
[email protected] logLiks  : num(0) 
[email protected] n    : int 111776 

任何人都可以GUID如何提高文檔 - 主題概率或者我們可以做些什麼來改進算法。

免責聲明:我做LDA的第一次,所以我會很感激,如果你能給我一些消息來源在哪裏可以找到所需的信息

+0

這是一個關於數據分析而不是編程的問題。你應該在[stats.se]或其他更合適的站點上提問這樣的問題。 – MrFlick

回答