當我使用read_csv()和read.csv()將CSV文件導入到R時,我遇到了一個問題。我的文件包含170萬行和78個變量。大部分變量都是整數。 當我使用read_csv()時,一些單元格(整數)被轉換爲NA,我得到以下警告。但是,這些單元格也是整數,所以我不知道它爲什麼會出錯。在R中,read_csv()解析失敗:將整數轉換成NA's
10487 parsing failures.
row col expected actual
3507 X27 an integer 2946793000
3507 X46 an integer 5246675000
3508 X8 an integer 11599000000
3508 X23 an integer 2185000000
3508 X26 an integer 2185000000.
當我訪問df [3507,27]時,它只顯示NA。此外,X27,X46和X8都是整數,所以我不明白爲什麼該函數適用於大多數行,但不適用於這幾行。
但是,當我使用read.csv()。它的工作原理和返回2946793000. 有人可以告訴我爲什麼這兩個函數在這裏有不同的表現嗎?
'read_csv'查看數據的第一行並猜測列的數據類型。有時候它猜錯了,特別是對於海量數據集。例如,我有一個包含性別列的數據集,它的readr思想是布爾型的(所有的第一行都是「F」)。嘗試讀取文件的頭部,直到出現第一個錯誤的行,並查看是否有一些字符串格式。您也可以強制它將有問題的列讀爲字符,然後將它們轉換爲數字。 –