2016-11-18 134 views
2

我有2.3 GB csv文件。當我使用R的data.table庫中的fread函數讀取它時,它會在第一列中添加''符號。fread函數更改大csv文件中第一列的名稱

因此,我的數據的第一列是'HistoryID',在通過fread閱讀後,它變爲'HistoryID'。其他列不受影響。 是否有一個特定的編碼應該用來解決這個問題?

當我讀到read.csv函數中的數據時,如果我們使用'UTF-8-BOM'編碼,這個問題就解決了,但是對於fread似乎並不起作用。

+0

edite問題並添加輸入nad的例子添加您的程序 –

回答

0

據對CRAN的文檔 - R-data.html#Variations-on-read_002etable

字節順序標記仍然會導致編碼的問題,並能與這樣的處理:

it can be read on Windows by 
read.table("intro.dat", fileEncoding = "UTF-8") 

but on a Unix-alike might need 
read.table("intro.dat", fileEncoding = "UTF-8-BOM") 

檢查部分2.1 Variations on read.table

它也似乎表明,read.csv使用這個技巧。