2017-09-24 70 views
-1

我正在開發一個個人項目,在該項目中,我記錄了我的城市在MySQL數據庫中存在的自行車租賃服務的數據。腳本每三十分鐘運行一次,並記錄每個自行車站的數據和每輛車的免費自行車。然後,在我的數據庫中,我平均每個電臺在該特定時間的可用性,使得它像今天一樣近似預測2個月的數據記錄。如何判斷您是否可以將機器學習應用到項目中?

我讀過關於機器學習一點,我想了解一下。是否可以用我的數據訓練一個模型,並在未來對ML進行更好的預測?

回答

1

答案很可能是肯定的。

的第一步是有一些數據,這聽起來像你這樣做。你有一個迴應(免費自行車)和一些功能(時間,地點)的變化。您已經通過對因素進行平均值來應用基本條件均值模型。 您可以使用某些日曆活動(如假日或本地事件標誌)來增加有關位置的數據。

準備的數據集,每一個觀測行,基準當前的預測流程的準確性像平均絕對誤差百分比(MAPE)度量的一段時間。確保驗證期間的預測(平均值)不包含驗證期內的任何數據! 使用此期間的數據來驗證您嘗試的其他模型。

拆分後,剩餘的部分數據爲測試集,並將剩餘的培訓。如果你有很多數據,那麼通常的訓練/測試分組是70/30。如果數據很小,則可能會降至90/10。

學習訓練集的一個或多個機器學習模型,對測試設置,以保證推廣性能還在不斷增加定期檢查的性能。許多培訓算法實現將爲您管理這個問題,並在測試性能由於過度擬合而開始下降時自動停止。這是機器學習對你目前的直線平均值的一大好處,能夠學習什麼是泛化和拋棄什麼不是。

通過預測驗證集合,計算MAPE並在同一時期比較模型的MAPE和原始過程的MAPE,驗證每個模型。祝你好運,並享受機器學習的樂趣!

相關問題