1
將CSV讀入R,並想用tm包製作一個語料庫,但沒有得到想要的結果。目前,當我讀取文本的CSV,然後檢查語料庫時,數據全部是數字。 (我只包含的data
前三列,以保護隱私;如圖所示的檢查結果有九。)R tm包DataframeSource import
library(tm)
data <- read.csv("filename.csv")
head(data)
Directory.Code First.Name Last.Name
1 SCA0025 Nbcde Cdbaace
2 SCA0025 AJCocei aiceice
3 SCA0025 aceca Ac;eice
4 SCA0025 Acoicm aie;cee
5 SCA0025 acei aciomac
6 SCA0025 caeij CIMCEv
data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1`
16
2195
6655
6613
1
5
9757
1
1
如果它有助於瞭解的目的:我想在名稱的CSV閱讀和未標準化的職位/描述,然後將其與已知標題/描述的語料庫作爲類別進行比較。現在我輸入了,我意識到這個csv將成爲我的測試/預測數據,但我仍然希望從csv構建一個colnames = KnownJobTitle,描述的語料庫。
此問題的目標是成功將CSV讀取到語料庫中,但我也想知道是否建議將tm包用於2個以上的分類,和/或是否有其他軟件包更多適合這項任務。
這可能會有所幫助:http://stackoverflow.com/a/15693766/1036500 – Ben 2013-04-26 21:00:14