2017-07-07 109 views
0

我使用創建的雙字母組的列表:[R文本挖掘轉換期限文檔矩陣

BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) 
tdm_a.bigram = TermDocumentMatrix(docs_a, 
           control = list(tokenize = BigramTokenizer)) 

我試圖讓每個兩字是出現在文檔的數量。如果我理解正確項文檔矩陣會給。每個二元組在文檔中出現多少次。但我只需要 '1'-present在一份文件中並且 '0' - 不存在。

如何將術語文檔矩陣轉換爲數據框或矩陣以獲得此類計數?

回答

0

TDM是來自slam包的simple_triplet_matrix。其中有一些常見的操作線行/ colSums fuctions。

slam::row_sums(tdm_a.bigram>=1)

這應該告訴你有多少文件如何包含在每個兩字。