R tm包DataframeSource import

將CSV讀入R，並想用tm包製作一個語料庫，但沒有得到想要的結果。目前，當我讀取文本的CSV，然後檢查語料庫時，數據全部是數字。（我只包含的data前三列，以保護隱私;如圖所示的檢查結果有九。）R tm包DataframeSource import

library(tm) 

data <- read.csv("filename.csv") 
head(data)  
    Directory.Code First.Name Last.Name 
1  SCA0025  Nbcde Cdbaace 
2  SCA0025 AJCocei aiceice 
3  SCA0025  aceca Ac;eice 
4  SCA0025  Acoicm aie;cee 
5  SCA0025  acei  aciomac 
6  SCA0025  caeij CIMCEv 

data.corp <- corpus(DataframeSource,data) 
inspect(data.corp[1]) 
A corpus with 1 text document 

The metadata consists of 2 tag-value pairs and a data frame 
Available tags are: 
    create_date creator 
Available variables in the data frame are: 
    MetaID 

$`1` 
16 
2195 
6655 
6613 
1 
5 
9757 
1 
1

如果它有助於瞭解的目的：我想在名稱的CSV閱讀和未標準化的職位/描述，然後將其與已知標題/描述的語料庫作爲類別進行比較。現在我輸入了，我意識到這個csv將成爲我的測試/預測數據，但我仍然希望從csv構建一個colnames = KnownJobTitle，描述的語料庫。

此問題的目標是成功將CSV讀取到語料庫中，但我也想知道是否建議將tm包用於2個以上的分類，和/或是否有其他軟件包更多適合這項任務。

來源

2013-04-26 user1174265

這可能會有所幫助：http://stackoverflow.com/a/15693766/1036500 – Ben 2013-04-26 21:00:14

我收到類似的錯誤。這是因爲從csv讀取的文本字段是分類而不是char。你需要先使用類似的東西將它們轉換爲字符：

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)

來源

2013-12-30 22:06:12 user3147718

R tm包DataframeSource import

回答

相關問題