0

我想找一個RandomForest分類器(帶scikit-learn)的最佳參數,它可以很好地推廣到其他數據集(可能不是iid)。 我在考慮使用整個訓練數據集進行網格搜索,同時評估其他數據集上的得分函數。 在python/scikit-learn中有這麼容易嗎?如何做GridSearchCV與火車和測試是不同的數據集?

+0

您無法評估另一個數據集上的評分函數。 – MMF

回答

1

如果可以,您可以簡單地合併兩個數據集並執行GridSearchCV,這可以確保對其他數據集的泛化能力。如果您正在討論將來未知數據集的泛化問題,那麼這可能不起作用,因爲沒有一個完美的數據集可以用來訓練一個完美的模型。

+0

謝謝!你有沒有提及將來未知數據集的概括? – user6903745

1

我不認爲你可以評估一個不同的數據集。 GridSearchCV背後的全部理念是將訓練集分成n個摺疊,對n-1個摺疊進行訓練,然後對剩下的一個進行評估,重複該過程,直到每個摺疊都是「奇怪的一個」。這使您無需設置特定的驗證集,而只需使用培訓和測試集即可。