2016-11-10 67 views
0

我已經使用以下命令創建的語料庫:子串在語料庫中TM包

corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION)) 
corpus_map <- tm_map(corpus_map, removeNumbers) 

上述命令從所述語料庫中刪除號碼。有沒有任何命令可以對一個語料庫中的所有單詞進行細分?例如:「Traveling」應該被轉換成#字符的子串作爲「tra」。通常情況下,我會用

substr("travelling",1,3) 

,但我想這樣做同樣的事情胼以舊換新

回答

0

您可以編寫一個函數來做到你想要的轉換和對語料庫運行,因此,例如:

ConvertStrings <- function(textInput){ 
textOutput <- gsub("travelling", "tra", textInput) 
textOutput <- gsub("furtherWords", "further", textOutput) 
#... 
return(textOutput) 
} 
corpus_transformed <- ConvertStrings(corpus_map) 
+0

但是,我怎樣才能做到這一點,每個文件中的每個字,最多3個字符?在這裏,旅行正在被稱爲「tra」。它會適用於所有的單詞嗎? –