在插入符包中使用火車的默認值,我試圖訓練數據集xtr2(dim(xtr2):765 9408)的隨機森林模型。問題在於它難以置信地花費很長時間(一次訓練需要一天以上)來適應功能。據我所知在默認情況下使用自舉採樣(25次)和三次隨機選擇mtry,爲什麼它應該這麼長? 請注意,我需要在每次運行中訓練rf三次(因爲我需要用相同的數據來表示不同隨機森林模型的結果),並且需要大約三天的時間,我需要運行10個不同樣品的代碼,所以我需要30天才能得到結果。R caret randomforest
我的問題是我如何使它更快?
可以改變列車的默認值使運行時間減少嗎?例如使用簡歷進行培訓?
可以使用脫字符包進行並行處理嗎?如果是的話,該怎麼辦?
隨機森林包的tuneRF可以做任何更改的時間?
這是代碼:
rffit=train(xtr2,ytr2,method="rf",ntree=500)
rf.mdl =randomForest(x=xtr2,y=as.factor(ytr2),ntree=500,
keep.forest=TRUE,importance=TRUE,oob.prox =FALSE ,
mtry = rffit$bestTune$mtry)
謝謝
你能分享你的樣本數據集嗎? –
'dim(xtr2):765 9408'這是什麼意思? – user31264
什麼需要24小時:'train'或'randomForest'? 'rffit $ bestTune $ mtry'的價值是什麼?你有沒有試着調用randomForest或者在小樣本的數據上使用相同的參數進行訓練(比如說50個元素)並且看看發生了什麼?您是否嘗試過在這些小樣本上玩參數:keep.forest,important,oob.prox,mtry? – user31264