0
我在這裏要問一個關於在RandomForest package
中使用RandomForest
函數的基本問題。 我正在使用RF algorithm
來執行土地覆蓋分類。在RandomForest中使用驗證和訓練數據集
我有一些geo-spatial
數據,我分成了一個訓練數據集(pks_trainingdf)和驗證數據集(pks_validationdf)。
每個df
包含34列;前33列是我想用於分類的樂隊;最後一列(「類」)包含這些類,它們應該是RF
分類的輸出。
我的問題是:哪個數據集是參數x
和哪個是xtest
? 以下代碼行是否正確?
modelRF_5 <- randomForest(x=pks_validationdf[, c(1:33)],
y=pks_validationdf$class, xtest=pks_trainingdf[, c(1:33)],
ytest=pks_trainingdf$class, importance=TRUE)
謝謝你的回答,這正是我一直在尋找的!所以,我使用Random Samping獲得了訓練和驗證數據集,所以它應該沒問題,對吧?如果我想將數據集分成三部分,它將如何工作? x將是訓練數據集,x測試數據集用於報告錯誤,那麼驗證數據集將在哪裏去...? –
如果我有訓練像素+驗證像素+未知像素(最後一個要分類),該怎麼辦? –
如果您有3個子集,首先使用驗證方法來調整模型並確定培訓規模。你可以做繪圖學習曲線並使用彎頭方法。另一個分區(測試)是您將用來檢查和報告模型的最終準確度和誤差度量的分區。 –