2011-12-21 58 views
1

將參數範圍探索和交叉驗證摺疊整合到單個mclapply()命令中的「最佳」或「推薦」方式是什麼?我擔心的是,如果我在參數範圍內纏繞mclapply(),如果某些交叉驗證運行在其他交叉驗證運行之前完成,則某些內核可能會處於空閒狀態。我的第一個想法是遍歷跨產品parameter_range X fold,但是這需要對CV fold結果進行一些混亂的組裝。我以「並行」的方式使用R 2.14。mclapply,摺疊和參數探索範圍

+0

你能給我們一些你使用的(僞)代碼嗎? – 2011-12-21 12:23:31

回答

1

這取決於 - 通常情況下,您希望無論如何都要超過核心數量,以便只有極少數進程餓死時,不會影響性能。如果你的計算速度足夠慢,你可以禁用預先調度,這樣空閒內核就會再次得到饋送(雖然對於進程管理有相當大的損失)。如果兩者都不起作用,則必須創建交叉產品,但組裝並不是那麼混亂(因爲給定數量的CV實際上很簡單)。