0
我是R的新手。我一直在嘗試讀取像這樣的CSV文件。讀取CSV文件並對其進行標記。
tweets <- read.csv("tweets.csv")
,我需要能夠消除所有的標點符號,轉化爲較低的情況下,從數據幀的tweet「刪除號碼&停止詞&空格,而無需將其轉換成文集或東西。沒有什麼花哨只是直接刪除它。有什麼圖書館/功能可以幫助解決這個問題嗎?
我是R的新手。我一直在嘗試讀取像這樣的CSV文件。讀取CSV文件並對其進行標記。
tweets <- read.csv("tweets.csv")
,我需要能夠消除所有的標點符號,轉化爲較低的情況下,從數據幀的tweet「刪除號碼&停止詞&空格,而無需將其轉換成文集或東西。沒有什麼花哨只是直接刪除它。有什麼圖書館/功能可以幫助解決這個問題嗎?
閱讀CSV的部分是你已經定義
tweets <- read.csv("tweets.csv")
然而,對於處理標點符號,空格除了使用語料庫中的另一種方法是使用正則表達式,但具有有限的應用,因爲它是不通用所有
這就是爲什麼我們喜歡語料庫,因爲它可以變得更容易適用於不同的來源
非常感謝。能夠做到。 –
讀一個CSV文件,然後處理/清洗它是不同的步驟。我建議把它分成兩個問題,一個用於讀取CSV文件,如果這給你帶來麻煩(請分享錯誤信息,也可能是一個文件樣本),另一個問題集中在清理它(再次顯示樣本,你試過了什麼)。 – Gregor
如果您已成功讀取CSV文件,請不要再提及,只需說出「我需要清理數據框」。但仍然顯示你已經嘗試過。在R標籤中搜索[「刪除標點符號」(點擊鏈接)](https://stackoverflow.com/search?q=%5Br%5D+remove+punctuation),嘗試一些你發現的東西將是一個很好的開始。工具/包/庫請求不在話題中。 – Gregor
我試過但沒有工作。我在網上找到的大多數其他功能也在做相同的操作。 tw [] < - lapply(tw,function(x){if(is.list(x))lapply(x,function(y ){ tolower的(GSUB( 「[,]」, 「」,Y)) }) }否則{ tolower的(GSUB( 「[,]」, 「」,X)) } }) tw 我得到這個: $ tolower.as.matrix.tw .. [1]「」「」 –