2012-07-16 140 views
2

感謝您對此的意見。我正在基因編程的幫助下構建迴歸模型。測試錯誤低於訓練錯誤

如果測試數據上的RMSE比我的RMSE數據比1:5數據的訓練數據低很多,我應該擔心嗎?

測試數據是從一組24個數據點中隨機抽取的,無需替換。該模型是使用遺傳編程技術構建的,因此特徵數量,建模框架等隨着我將GP樹中節點數調整的訓練RMSE最小化而變化。

該模型是否配備不足?或者我應該最小化MSE而不是RMSE(我認爲這應該與MSE是正的相同,MSE的最小值與RMSE的最小值一致,假設優化器足以找到最小值)?

韓國社交協會

回答

1

所以你的模型是在20訓練有素的24個數據點,在餘下的4個數據點進行測試?

對我來說,這聽起來像你需要(很多)更多的數據,所以你可以有一個更大的火車和測試集。我對您測試集的低性能並不感到意外,因爲您的模型似乎無法從這麼少的數據中學習。作爲一個經驗法則,對於機器學習,您永遠不會擁有足夠的數據。是否有可能收集更大的數據集?

+0

你是對的懷疑是不可能收集一個更大的數據集。測試集的性能實際上非常好,比在訓練集上好得多。我試圖做6倍交叉驗證。平均測試誤差仍然非常低(RMSE)。就MAPE而言,測試性能也非常好(小於2%)。訓練誤差較大,可能是三個數量級以上。在RMSE和MAPE中! – oalah 2012-07-16 09:54:57

+0

啊我誤讀了,我以爲你的測試表現不好。那確實是一個有趣的情況。您在訓練數據上的表現是整個訓練期間的平均值,還是隻有在模型完成學習後衡量的表現? – Sicco 2012-07-16 10:11:12

+0

嗨Sicco,培訓表現一旦模型完成學習。 – oalah 2012-07-17 01:13:47