R - Tokenization - TermDocumentMatrix中的單個和雙字母單詞

我目前正在嘗試做一些文本處理，並且希望在TermDocumentMatrix中獲得單個和兩個字母的單詞。R - Tokenization - TermDocumentMatrix中的單個和雙字母單詞

問題是，它似乎只顯示3個字母和更多的單詞。

library(tm) 
    library(RWeka) 

    test<-'This is a test.' 

    testmyCorpus<-Corpus(VectorSource(test)) 
    testTDF<-TermDocumentMatrix(testmyCorpus, control=list(tokenize=AlphabeticTokenizer)) 
    inspect(testTDF)

只顯示單詞「this」和「test」。有任何想法嗎？

非常感謝您的幫助！羅伯特

來源

2015-02-24 Robert

Here幾乎是你的問題的答案：總之，你應該添加一個選項control=list(wordLengths=c(1,Inf)到TermDocumentMatrix。

來源

2015-02-24 19:22:50

非常感謝！完美的作品！ – Robert 2015-02-24 19:24:53

嗨@Robert如果這個或任何答案已經解決了您的問題，請點擊複選標記考慮[接受它]（http://meta.stackexchange.com/q/5234/179419）。這向更廣泛的社區表明，您已經找到了解決方案，併爲答覆者和您自己提供了一些聲譽。沒有義務這樣做。 – 2015-03-12 22:01:21

R - Tokenization - TermDocumentMatrix中的單個和雙字母單詞

回答

相關問題