2016-08-03 161 views
1

假設我正在嘗試使用神經網絡來預測我的運行需要多長時間。我有很多來自過去運行的數據。我計劃跑步多少英里,海拔(丘陵),溫度和天氣的總變化:晴天,陰天,下雨或下雪。如何處理機器學習算法中的定性數據

我很困惑如何處理最後一塊數據。對於標準化後我可以正常輸入的所有內容,但我無法爲天氣做到這一點。我的初始只是有4個額外的變量,每個類型的天氣一個,輸入1或0取決於它是什麼。

這是一個很好的方法來處理這種情況嗎?我應該嘗試其他方法嗎?

回答

2

你有一個分類變量有四個級別。

編碼這種值的一種非常典型的方法是爲每一種使用單獨的變量。或者更通常地,「n-1」編碼,其中使用少一個標誌(第四個值由全爲0表示)。

n-1編碼用於需要數字輸入的技術 - 包括邏輯迴歸和神經網絡。對於大數值的「n」,那麼這是一個不好的選擇。問題是它創建了稀疏數據的許多輸入;稀疏數據高度相關。更多的輸入意味着更多的網絡自由度,使得網絡難以訓練。

在你的情況下,你只有四個值爲這個特定的輸入。將它分成三個變量可能是合理的。