0
我目前正在嘗試做一些文本處理,並且希望在TermDocumentMatrix中獲得單個和兩個字母的單詞。R - Tokenization - TermDocumentMatrix中的單個和雙字母單詞
問題是,它似乎只顯示3個字母和更多的單詞。
library(tm)
library(RWeka)
test<-'This is a test.'
testmyCorpus<-Corpus(VectorSource(test))
testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer))
inspect(testTDF)
只顯示單詞「this」和「test」。有任何想法嗎?
非常感謝您的幫助! 羅伯特
非常感謝!完美的作品! – Robert 2015-02-24 19:24:53
嗨@Robert如果這個或任何答案已經解決了您的問題,請點擊複選標記考慮[接受它](http://meta.stackexchange.com/q/5234/179419)。這向更廣泛的社區表明,您已經找到了解決方案,併爲答覆者和您自己提供了一些聲譽。沒有義務這樣做。 – 2015-03-12 22:01:21