0
我已經使用以下命令創建的語料庫:子串在語料庫中TM包
corpus_map <-VCorpus(VectorSource(classified_narr_sel$NARRATION))
corpus_map <- tm_map(corpus_map, removeNumbers)
上述命令從所述語料庫中刪除號碼。有沒有任何命令可以對一個語料庫中的所有單詞進行細分?例如:「Traveling」應該被轉換成#字符的子串作爲「tra」。通常情況下,我會用
substr("travelling",1,3)
,但我想這樣做同樣的事情胼以舊換新
但是,我怎樣才能做到這一點,每個文件中的每個字,最多3個字符?在這裏,旅行正在被稱爲「tra」。它會適用於所有的單詞嗎? –