2013-04-26 92 views
1

將CSV讀入R,並想用tm包製作一個語料庫,但沒有得到想要的結果。目前,當我讀取文本的CSV,然後檢查語料庫時,數據全部是數字。 (我只包含的data前三列,以保護隱私;如圖所示的檢查結果有九。)R tm包DataframeSource import

library(tm) 

data <- read.csv("filename.csv") 
head(data)  
    Directory.Code First.Name Last.Name 
1  SCA0025  Nbcde Cdbaace 
2  SCA0025 AJCocei aiceice 
3  SCA0025  aceca Ac;eice 
4  SCA0025  Acoicm aie;cee 
5  SCA0025  acei  aciomac 
6  SCA0025  caeij CIMCEv 

data.corp <- corpus(DataframeSource,data) 
inspect(data.corp[1]) 
A corpus with 1 text document 

The metadata consists of 2 tag-value pairs and a data frame 
Available tags are: 
    create_date creator 
Available variables in the data frame are: 
    MetaID 

$`1` 
16 
2195 
6655 
6613 
1 
5 
9757 
1 
1 

如果它有助於瞭解的目的:我想在名稱的CSV閱讀和未標準化的職位/描述,然後將其與已知標題/描述的語料庫作爲類別進行比較。現在我輸入了,我意識到這個csv將成爲我的測試/預測數據,但我仍然希望從csv構建一個colnames = KnownJobTitle,描述的語料庫。

此問題的目標是成功將CSV讀取到語料庫中,但我也想知道是否建議將tm包用於2個以上的分類,和/或是否有其他軟件包更多適合這項任務。

+0

這可能會有所幫助:http://stackoverflow.com/a/15693766/1036500 – Ben 2013-04-26 21:00:14

回答

1

我收到類似的錯誤。這是因爲從csv讀取的文本字段是分類而不是char。你需要先使用類似的東西將它們轉換爲字符:

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)