2015-02-24 58 views
0

我目前正在嘗試做一些文本處理,並且希望在TermDocumentMatrix中獲得單個和兩個字母的單詞。R - Tokenization - TermDocumentMatrix中的單個和雙字母單詞

問題是,它似乎只顯示3個字母和更多的單詞。

library(tm) 
    library(RWeka) 

    test<-'This is a test.' 

    testmyCorpus<-Corpus(VectorSource(test)) 
    testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer)) 
    inspect(testTDF) 

只顯示單詞「this」和「test」。有任何想法嗎?

非常感謝您的幫助! 羅伯特

回答

2

Here幾乎是你的問題的答案:總之,你應該添加一個選項control=list(wordLengths=c(1,Inf)到TermDocumentMatrix。

+0

非常感謝!完美的作品! – Robert 2015-02-24 19:24:53

+0

嗨@Robert如果這個或任何答案已經解決了您的問題,請點擊複選標記考慮[接受它](http://meta.stackexchange.com/q/5234/179419)。這向更廣泛的社區表明,您已經找到了解決方案,併爲答覆者和您自己提供了一些聲譽。沒有義務這樣做。 – 2015-03-12 22:01:21

相關問題