我有這個CSV數據集,我需要創建一個函數來執行數據清理,但仍然無法正常工作,而且我的想法已經過時。數據清理和表中的拼寫錯誤
以下是Google雲端硬盤上的dataset。
這是我需要做的:
- 糾正可能的輸入
- 刪除不相關的數據(僅在奧克蘭和惠靈頓的房屋被認爲是)
- 刪除離羣值,例如負值區,負功耗,非常高的地區,非常高的功率消耗
到目前爲止,這是我做的代碼:
# Reading data set
installed.packages("lubridate")
library(lubridate)
# Reading data set
power <- read.csv("data set 6.csv", na.strings="")
# SUBSETTING
Area <- as.numeric(power$Area)
City <- as.character(power$City)
P.Winter <- as.numeric(power$P.Winter)
P.Summer <- as.numeric(power$P.Summer)
#Data Cleaning
levels(power$City) <- c(levels(power$City), "Auckland")
power$City[power$City == "Ackland"] <- "Auckland"
#Removing irrelevant data (only houses in Auckland and Wellington are considered)
power$City <- power$City[-c(496,499), ]
後,我運行此代碼,拼錯的單詞(「阿克蘭「)不會像我預期的那樣改變爲奧克蘭。 這突出顯示的行如在此圖像中應該改變奧克蘭:
問題尋求幫助調試(「爲什麼不是這個代碼的工作?」)必須包括所期望的行爲,一個特定的問題或錯誤,並重現它在問題本身所需要的最短的代碼。沒有明確問題陳述的問題對其他讀者無益。請參閱:如何創建最小,完整和可驗證示例。 –
查看函數'?droplevels'。 –
@MarcusMüller我希望我上傳能給什麼,我期待 – Nelson