2016-09-18 270 views
0

我在python中使用joblib.dump來保存使用隨機森林進行5折交叉驗證建模的模型。因此,我爲每個數據集保存了5個模型:MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。現在我想用這些模型預測外部數據集,使用predict_proba,當我的外部數據集中每行的最終預測值是5個模型的平均值時。最好的方法是什麼? 感謝您的幫助使用隨機森林模型預測外部數據集

回答

0

首先,您不應該保存交叉驗證的結果。交叉驗證不是一種訓練方法,它是評估方案。您應該在整個數據集上構建單個模型並將其用於預測。

如果由於某種原因,你不能再訓練你的模型,你仍然可以通過對它們進行平均來使用這5個預測(因爲隨機森林本身就是一個簡單的總體樹木),然而回去和再培訓應該會給你bettter結果。