R中的TermDocumentMatrix錯誤

2014-08-28 66 views 12 likes

我一直在研究R中許多在線的{tm}包的示例，試圖創建TermDocumentMatrix。創建和清理語料庫非常簡單，但是當我嘗試創建矩陣時，我總是遇到錯誤。錯誤是：R中的TermDocumentMatrix錯誤

錯誤UseMethod（「元」，X）：應用於類「字符」另外的一個目的爲「元」不適用方法：警告消息：在mclapply（unname （含量（x）），termFreq，控制）：所有預定的核心用戶代碼

例如遇到錯誤，這裏是喬恩斯塔克韋瑟的文本挖掘example代碼。對於這樣長的代碼，事先道歉，但這確實產生了一個可重複的例子。請注意，該錯誤最後以{tdm}函數結束。

#Read in data 
policy.HTML.page <- readLines("http://policy.unt.edu/policy/3-5") 

#Obtain text and remove mark-up 
policy.HTML.page[186:202] 
id.1 <- 3 + which(policy.HTML.page == "     TOTAL UNIVERSITY  </div>") 
id.2 <- id.1 + 5 
text.data <- policy.HTML.page[id.1:id.2] 
td.1 <- gsub(pattern = "<p>", replacement = "", x = text.data, 
    ignore.case = TRUE, perl = FALSE, fixed = FALSE, useBytes = FALSE) 

td.2 <- gsub(pattern = "</p>", replacement = "", x = td.1, ignore.case = TRUE, 
    perl = FALSE, fixed = FALSE, useBytes = FALSE) 

text.d <- td.2; rm(text.data, td.1, td.2) 

#Create corpus and clean 
library(tm) 
library(SnowballC) 
txt <- VectorSource(text.d); rm(text.d) 
txt.corpus <- Corpus(txt) 
txt.corpus <- tm_map(txt.corpus, tolower) 
txt.corpus <- tm_map(txt.corpus, removeNumbers) 
txt.corpus <- tm_map(txt.corpus, removePunctuation) 
txt.corpus <- tm_map(txt.corpus, removeWords, stopwords("english")) 
txt.corpus <- tm_map(txt.corpus, stripWhitespace); #inspect(docs[1]) 
txt.corpus <- tm_map(txt.corpus, stemDocument) 

# NOTE ERROR WHEN CREATING TDM 
tdm <- TermDocumentMatrix(txt.corpus)

來源

2014-08-28 Brian P

我看過這篇文章，你的問題讓我想起了那個。看看[這個鏈接]（http://stackoverflow.com/questions/24771165/r-project-no-applicable-method-for-meta-applied-to-an-object-of-class-charact）。這可能是有用的。 – jazzurro 2014-08-28 14:56:17

@jazzurro - 非常感謝將我重定向到這篇文章！在tm_map函數中添加content_transformer到tolower解決了這個問題 – 2014-08-28 15:02:11

我實際上遇到了同樣的問題並且看到了這個帖子。我很高興你的腳本現在正在工作。 – jazzurro 2014-08-28 15:10:09

回答

jazzurro提供的鏈接指向解決方案。代碼

txt.corpus <- tm_map(txt.corpus, tolower)

以下行必須改變，以

txt.corpus <- tm_map(txt.corpus, content_transformer(tolower))

來源

2014-08-28 15:05:15

有2個原因，這個問題在TM V0.6。

如果你是做長期水平轉換像tolower等，tm_map收益特徵向量，而不是PlainTextDocument。
解決方案：呼叫tolower通過content_transformer或者如果沒有安裝SnowballC包後tolower
立即打電話tm_map(corpus, PlainTextDocument)，如果你正在試圖阻止的文件，然後也可能發生這種情況。
解決方案：install.packages('SnowballC')

來源

2015-04-16 16:25:52

沒有必要申請content_transformer。

以這種方式創建語料庫：

trainData_corpus <- Corpus((VectorSource(trainData$Comments)))

試試吧。

來源

2017-04-17 05:31:51

相關問題

1. R中的TermDocumentMatrix - 僅創建1剋剋
2. 在tm包中創建TermDocumentMatrix時出錯
3. R中的錯誤（）在R
4. R - Tokenization - TermDocumentMatrix中的單個和雙字母單詞
5. 錯誤中的R
6. 錯誤中的R
7. 中的R錯誤
8. 錯誤中的R
9. 錯誤中的R
10. 錯誤中的R
11. 如何在R中使用TermDocumentMatrix來處理波斯語文本？
12. R應用錯誤 - as.matrix.data.frame（）中的錯誤
13. 錯誤而R中
14. CharToDate（x）R中的錯誤
15. 錯誤：sqldf包中的R
16. R中的錯誤h2o.find_threshold_by_max_metric
17. R＆RCurl：libcurl中的錯誤54
18. R中的誘捕錯誤
19. 檢查R中的錯誤
20. R markdown中的plot.new錯誤
21. 錯誤而中的R
22. R中的行數錯誤
23. 錯誤「pdfetch」中的R
24. R中的Barplot錯誤
25. stemDocument在TermDocumentMatrix中工作，但在tm_map中無法使用tm和R
26. 錯誤率R
27. R apache錯誤
28. R硒錯誤
29. [R merge.xts錯誤
30. 錯誤read_html [R