使用隨機森林模型預測外部數據集

我在python中使用joblib.dump來保存使用隨機森林進行5折交叉驗證建模的模型。因此，我爲每個數據集保存了5個模型：MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。現在我想用這些模型預測外部數據集，使用predict_proba，當我的外部數據集中每行的最終預測值是5個模型的平均值時。最好的方法是什麼？感謝您的幫助使用隨機森林模型預測外部數據集

來源

2016-09-18 Regina

首先，您不應該保存交叉驗證的結果。交叉驗證不是一種訓練方法，它是評估方案。您應該在整個數據集上構建單個模型並將其用於預測。

如果由於某種原因，你不能再訓練你的模型，你仍然可以通過對它們進行平均來使用這5個預測（因爲隨機森林本身就是一個簡單的總體樹木），然而回去和再培訓應該會給你bettter結果。

來源

2016-09-18 22:54:45 lejlot

使用隨機森林模型預測外部數據集

回答

相關問題