我有一個數據集,您可以找到(更新後的)here文件,其中包含不同辦公大樓的許多不同特徵,包括其表面積和在那裏工作的人數。總共有大約200條記錄。我想要使用一種可以使用上述數據集進行訓練的算法,以便能夠預測不在該集合中的建築物的電力消耗(在列'kwh'中給出)。預測不同建築物的能耗
我已經嘗試了大多數可能的機器學習算法,使用python中的scikit庫(線性迴歸,Ridge,Lasso,SVC等)來預測連續變量。 Surface_area和工作者數量具有相關值,目標變量在0.3-0.4之間,因此我假設他們是模型的良好特徵,並將其納入模型的訓練中。然而,我的平均絕對誤差約爲13350,R平方值約爲0.22-0.35,這並不好。
如果有人能給我一些建議,或者你可以檢查一些數據集並運行一些算法,我將不勝感激。我應該使用哪種類型的預處理,以及什麼類型的算法?訓練用於預測連續變量的迴歸模型的數據集數是否過低?
,因爲我是新來的機器學習:)
您使用了哪種關聯?使用Pearson's時,我的值不會超過0.5。 –
嘿。抱歉。我用類似的文件運行它。但現在我再次檢查,我得到0.3 - 0.4之間。我將在描述中進行編輯 – Keshava
這是您的整個數據集嗎?如果是這樣,似乎小得出結論 –