是否需要同時運行交叉驗證的隨機森林

隨機森林是一個強大的算法。在隨機森林中，它訓練幾棵小樹並且具有OOB精度。但是，是否有必要同時使用隨機森林進行交叉驗證？是否需要同時運行交叉驗證的隨機森林

2013-03-25 tqjustc

OOB錯誤是隨機森林誤差的無偏估計，所以這很好。但是你使用交叉驗證的是什麼？如果您將RF與其他未使用套袋的算法進行比較，則需要使用較低的方差來比較它們。無論如何，您必須使用交叉驗證來支持其他算法。然後使用交叉驗證樣本分割RF，而其他算法仍然是一個好主意，這樣可以消除分割選擇造成的變化。

如果您將一個RF與另一個RF與不同的功能集進行比較，那麼比較OOB錯誤是合理的。如果您確保兩個RF在訓練期間使用相同的套袋套件，則尤其如此。

2013-03-25 14:50:46

您不需要需要來執行任何類型的驗證。如果你只是想使用它，並不在乎過度配合的風險。

對於科學出版物（或其他任何地方，你的比較不同分類器的質量），你應該驗證你的結果，交叉驗證是一個最佳實踐。

2013-03-25 17:12:21

回答