在R中使用DocumentTermMatrix和'dictionary'參數

我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣：在R中使用DocumentTermMatrix和'dictionary'參數

library(tm) 
crude <- "japan korea usa uk albania azerbaijan" 
corps <- Corpus(VectorSource(crude)) 
dtm <- DocumentTermMatrix(corps) 
inspect(dtm) 

words <- c("australia", "korea", "uganda", "japan", "argentina", "turkey") 
test <- DocumentTermMatrix(corps, control=list(dictionary = words)) 
inspect(test)

預期與結果的第一inspect(dtm)工作：

Terms 
Docs albania azerbaijan japan korea usa 
    1  1   1  1  1 1

但第二inspect(test)顯示此結果：

Terms 
Docs argentina australia japan korea turkey uganda 
    1   0   1  0  1  0  0

雖然預期結果是：

Terms 
Docs argentina australia japan korea turkey uganda 
    1   0   0  1  1  0  0

這是一個錯誤還是我用它錯誤的方式？

來源

2017-06-20 Izzur Zuhri

語料庫（）似乎有索引詞頻率時的錯誤。

使用VCorpus（）代替，這會給你預期的結果。

來源

2017-09-27 18:11:00 AshOfFire

在R中使用DocumentTermMatrix和'dictionary'參數

回答

相關問題