2014-12-07 72 views
0

我使用TM包中的R,以通過數據集,其結構如下執行文本挖掘從2個目錄的數據語料庫:加載中的R

有一個目錄group_Data其中包含與名稱2個不同的目錄B和C.現在目錄B包含文檔和目錄C也包含文檔。

我知道單獨通過創建2個語料庫加載目錄B和C的數據的方式:

library(tm) 
pathToB = "group_Data/B" 
pathToC = "group_Data/C" 

bCorpus = Corpus(DirSource(pathToB), 
       readerControl = list(reader = readPlain)) 
cCorpus = Corpus(DirSource(pathToC), 
       readerControl = list(reader = readPlain)) 
length(bCorpus) 
length(cCorpus) 

但我需要從B和C的數據加載到一個單一的語料庫。 這是我的嘗試:

pathToBAndC = "group_Data" 
corpusBC = Corpus(DirSource(pathToBAndC), 
       readerControl = list(reader = readPlain)) 

在運行長命令如下文所述,它給0

length(corpusBC) 

能有人指出,如果我錯過了語料庫方法中的一個選項,可以做這對我來說?

回答

0

您可以結合語料庫與

corpusBC <- c(bCorpus, cCorpus) 

或者根據爲?DirSource的文檔,你可以在路徑矢量路徑

corpusBC <- Corpus(DirSource(c(pathToB, pathToC)), 
    readerControl = list(reader = readPlain))