2017-10-10 195 views
0

我是R的新手。我一直在嘗試讀取像這樣的CSV文件。讀取CSV文件並對其進行標記。

tweets <- read.csv("tweets.csv") 

,我需要能夠消除所有的標點符號,轉化爲較低的情況下,從數據幀的tweet「刪除號碼&停止詞&空格,而無需將其轉換成文集或東西。沒有什麼花哨只是直接刪除它。有什麼圖書館/功能可以幫助解決這個問題嗎?

+0

讀一個CSV文件,然後處理/清洗它是不同的步驟。我建議把它分成兩個問題,一個用於讀取CSV文件,如果這給你帶來麻煩(請分享錯誤信息,也可能是一個文件樣本),另一個問題集中在清理它(再次顯示樣本,你試過了什麼)。 – Gregor

+0

如果您已成功讀取CSV文件,請不要再提及,只需說出「我需要清理數據框」。但仍然顯示你已經嘗試過。在R標籤中搜索[「刪除標點符號」(點擊鏈接)](https://stackoverflow.com/search?q=%5Br%5D+remove+punctuation),嘗試一些你發現的東西將是一個很好的開始。工具/包/庫請求不在話題中。 – Gregor

+0

我試過但沒有工作。我在網上找到的大多數其他功能也在做相同的操作。 tw [] < - lapply(tw,function(x){if(is.list(x))lapply(x,function(y ){ tolower的(GSUB( 「[,]」, 「」,Y)) }) }否則{ tolower的(GSUB( 「[,]」, 「」,X)) } }) tw 我得到這個: $ tolower.as.matrix.tw .. [1]「」「」 –

回答

0

閱讀CSV的部分是你已經定義

tweets <- read.csv("tweets.csv") 

然而,對於處理標點符號,空格除了使用語料庫中的另一種方法是使用正則表達式,但具有有限的應用,因爲它是不通用所有

這就是爲什麼我們喜歡語料庫,因爲它可以變得更容易適用於不同的來源

+0

非常感謝。能夠做到。 –

相關問題