子串在語料庫中TM包

我已經使用以下命令創建的語料庫：子串在語料庫中TM包

corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION)) 
corpus_map <- tm_map(corpus_map, removeNumbers)

上述命令從所述語料庫中刪除號碼。有沒有任何命令可以對一個語料庫中的所有單詞進行細分？例如：「Traveling」應該被轉換成＃字符的子串作爲「tra」。通常情況下，我會用

substr("travelling",1,3)

，但我想這樣做同樣的事情胼以舊換新

來源

2016-11-10 Shyam Narasimhan

您可以編寫一個函數來做到你想要的轉換和對語料庫運行，因此，例如：

ConvertStrings <- function(textInput){ 
textOutput <- gsub("travelling", "tra", textInput) 
textOutput <- gsub("furtherWords", "further", textOutput) 
#... 
return(textOutput) 
} 
corpus_transformed <- ConvertStrings(corpus_map)

來源

2016-11-10 11:52:19 user116

但是，我怎樣才能做到這一點，每個文件中的每個字，最多3個字符？在這裏，旅行正在被稱爲「tra」。它會適用於所有的單詞嗎？ –

子串在語料庫中TM包

回答

相關問題