將某些colClasses設置爲整數時，read.table在發現引用字段值時發生抱怨

的命令問題：

problem <- read.csv("test.csv",na.strings=c("","<NA>"),colClasses=c("mths_since_last_major_derog"="integer"))

我打的錯誤：

Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, : 
scan() expected 'an integer', got '""'

我打了一個類似的問題，用下面的命令：

problem <- read.csv("test.csv",na.strings=c("","<NA>"),colClasses=c("id"="integer"))

這種情況下的錯誤：

Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, : 
scan() expected 'an integer', got '"1077501"'

所以它似乎/在我看來，

然而，其他列包裹在""如member_id和loan_amnt得到鑄成integer無投訴（同時也沒有使用任何colClasses特殊干預！）。

貼近的問題：

更重要的是：

2015-09-23 kayaker243

我從來沒有使用名爲向量colClasses前，但我確實看到可能非常有用。對'scan'進行了一些更改以適應R 3.0中的長整數/數字處理更改。也許這是一個副作用？ –

請勿使用colClasses。如果你真的需要強制，然後讀取它，然後use$id <- as.integer(problem$id)

但在這種情況下（您的test.csv）我認爲R是相當不錯的加載數據。

編輯

只是再次重申。想象一下，有3列一個簡單的數據表：

id,member_id,term 
1077501,1296599,36 months 
1077430,1314167,60 months 
1077175,1313524,36 months 
1076863,1277178,36 months

如果通過

d <- read.csv("c:/temp/R/data.csv")

加載數據，則R將盡最大努力來滿足數據類型。如果你真的想先告訴它，使用colClasses;如果你這樣說

d <- read.csv("c:/temp/R/data.csv", colClasses = c("integer"))

那麼它會嘗試使用類integer，每列，因爲它是重複的colClasses載體。

同樣的問題與

d <- read.csv("c:/temp/R/data.csv", colClasses = c("integer","character"))

試圖加載第一列作爲colClasses[1]，即整數 - 確定。

試圖加載第二列爲colClasses[2]，即字符 - 確定。

嘗試加載第3列 - 因爲沒有colClasses[3]那麼回收colClasses並回到colClasses[1] - 這是行不通的（R犯規知道如何迫使'36個月的整數值）

EDIT2

後實際看數據集，問題是你的列不具有任何價值，並且只存儲""。所以你需要添加""您na.string並且將這樣的伎倆：（即你需要躲避"，您的實際字符串將是"\"\""）

problem <- read.csv("c:/temp/R/test.csv",na.strings=c("\"\"","","<NA>"),colClasses=c("mths_since_last_major_derog"="integer"))

2015-09-23 16:18:08 rbm

@BondedDust對該問題發表了評論，但將其刪除;所以只需重新迭代：'colClasses'即可使用，但如果矢量不夠長，它將被回收。 – rbm

迴避'colClasses'的原因是什麼？我的理解是，提前向類提供R可顯着提高'read.table/read.csv'的速度。 – kayaker243

你是什麼意思「如果矢量不夠長，它會被回收」？ – kayaker243

回答