在tm中包含短標記DocumentTermMatrix

編輯：這是與工作區中的對象衝突並導致意外行爲的問題。在tm中包含短標記DocumentTermMatrix

我想從文檔中使用下面的代碼創建DocumentTermMatrix。該文件包含許多1和2個字符的標記。但是，即使最小字長設置爲1個字符，生成的矩陣也包含699個文檔和0個項。

library(tm) 
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE) 
data <- data[-1] 

training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" ")) 
corpus <- Corpus(VectorSource(training_data)) 

matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))

任何人都可以提供一些線索，爲什麼沒有令牌，儘管數據有許多被1和2個字符的令牌產生的？這裏是一個樣本數據的錄入：

" 4 8 8 5 4 5 10 4 1 4"

來源

2012-02-09 Timothy P. Jurka

我跑什麼你給我在R和TM的最新版本Windows 7的機器上，併產生你要找的人（見下文）的結果。我會嘗試清理您的工作區，退出R和/或重新啓動。

> library(tm) 
> data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE) 
> data <- data[-1] 
> 
> training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" ")) 
> corpus <- Corpus(VectorSource(training_data)) 
> 
> matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf))) 
> matrix 
A document-term matrix (699 documents, 11 terms) 

Non-/sparse entries: 2899/4790 
Sparsity   : 62% 
Maximal term length: 2 
Weighting   : term frequency (tf)

來源

2012-02-09 06:53:57

我想有時你只是需要在另一臺計算機上測試才能找到問題。感謝您的幫助！ – 2012-02-09 07:24:32

在tm中包含短標記DocumentTermMatrix

回答

相關問題