我正在使用撥浪鼓包來做一些數據清理工作,我在數據集中考慮了第一個變量X.當我在第一個選項卡中輸入「Data」選項卡時,它報告了一些基本的數據集,並且它說變量X有1243個缺失值。如果我使用sum(is.na(my_df[,1]))
,這也是我的價值。是否有不同類型的NA?
在接下來的選項卡,在「資源管理器」選項卡,當我檢查「摘要」現在說,我剛纔942倍的NA在變量X
我怎樣才能使這些不同的數字感?我通過數據集手動瀏覽了一下,看了一些有NDA的行,這些NAs看起來都是一樣的(我知道有時候會有不同類型的NAs)。
(邊問題:sum(is.na(my_df[,1]), na.rm = FALSE)
和sum(is.na(my_df[,1]),na.rm = TRUE)
也都產生了相同數量的1243,爲什麼我會預料到,給我length(my_df[,1])-1243
?)
編輯這裏是有這個問題的數據集:https://wetransfer.com/downloads/cf454b2c12857a4e3770102a7222422f20171019153755/516fb0。
這個數字略有不同,而不是1243,根據rattle()中的「Data」選項卡(或等效地根據summary(ten_df)
)和根據「Explore」的62個NAs,選中摘要選項卡。
但是現在我懷疑我的數據集被破壞了,因爲在上傳完整的數據集之前,我原本只想上傳一個說明性列。但是,當我執行
ten_df = read.csv("ten.csv",sep=";")
my_df = as.data.frame(ten_df[,3])
,因爲我想看看第三列與var2
和my_df
是我想最初上傳,後來選擇當最後一個命令返回錯誤
Warning messages:
1: In rep(no, length.out = length(ans)) :
'x' is NULL so the result will be NULL
而且, my_df使用撥浪鼓進行分析,撥浪鼓在底部欄中提供「0輸入變量」,並在其中給出反饋。怎麼會這樣?
至於你身邊的問題,'is.na'只能返回'TRUE/FALSE',參數'na.rm'無關。要看到這個嘗試'x < - c(1:3,NaN,NA,4,5,NA);總和(is.na(X))'。至於報告缺失值的差異,很難說沒有看到數據。我會信任'summary(X)'。 –
@RuiBarradas謝謝! – billyboy