2017-08-31 68 views
-1

我有一個數據集,您可以找到(更新後的)here文件,其中包含不同辦公大樓的許多不同特徵,包括其表面積和在那裏工作的人數。總共有大約200條記錄。我想要使​​用一種可以使用上述數據集進行訓練的算法,以便能夠預測不在該集合中的建築物的電力消耗(在列'kwh'中給出)。預測不同建築物的能耗

我已經嘗試了大多數可能的機器學習算法,使用python中的scikit庫(線性迴歸,Ridge,Lasso,SVC等)來預測連續變量。 Surface_area和工作者數量具有相關值,目標變量在0.3-0.4之間,因此我假設他們是模型的良好特徵,並將其納入模型的訓練中。然而,我的平均絕對誤差約爲13350,R平方值約爲0.22-0.35,這並不好。

如果有人能給我一些建議,或者你可以檢查一些數據集並運行一些算法,我將不勝感激。我應該使用哪種類型的預處理,以及什麼類型的算法?訓練用於預測連續變量的迴歸模型的數據集數是否過低?

,因爲我是新來的機器學習:)

+0

您使用了哪種關聯?使用Pearson's時,我的值不會超過0.5。 –

+0

嘿。抱歉。我用類似的文件運行它。但現在我再次檢查,我得到0.3 - 0.4之間。我將在描述中進行編輯 – Keshava

+0

這是您的整個數據集嗎?如果是這樣,似乎小得出結論 –

回答

0

應在這些類型的機器學習問題做的第一件事就是要了解數據的任何反饋將是有益的。是的,數據集中的特徵數量很少,是的,數據樣本的數量非常少,但重要的是盡我們所能做到最好。

數據集標題使用英語以外的語言,因此將其轉換爲社區中大多數人會理解的語言(在本例中爲英語)很重要。在做了一些修補之後,我發現使用的語言是荷蘭語。

數據集中缺少一些關鍵特徵。從建築物的層數到明顯的工作時間等顯而易見的事情。表面積和工人人數對我來說是最重要的特徵,但是你錯過了一個名爲building_function的功能,它在使用谷歌翻譯後說明了建築物的用途。直觀地說,這應該與功耗有很大的相關性。行業傾向於使用比正常家庭更多的權力。翻譯後,我發現主要類型是住宅,辦公室,住宿和會議。因此這個特徵必須被編碼爲一個名義變量來訓練模型。

另一個特徵hoofsbi也似乎有一些變化。但我不知道這個功能的含義。

如果您可以翻譯數據中的標題並共享它,我將能夠爲您提供一些代碼來執行此迴歸任務。理解數據是什麼以及如何執行特徵工程是非常重要的。

+0

嘿。感謝您的迴應。對不起,關於荷蘭語,我已經用一個新的文件和頭文件的翻譯進行了更新。 至於hoofsbi,它是根據荷蘭經濟和金融活動對公司進行分類的標準代碼。 – Keshava

+0

你可以在這裏找到這些文件。 [updated_file](https://www.dropbox.com/s/bn5z444ydc1i82h/new_kwh.xlsx?dl=0) – Keshava