我正在關注Tensorflow Object Detection API tutorial,以在我自己的Google雲數據集上訓練更快的R-CNN模型。但是,下面的「內存不足」錯誤一直在發生。當內存使用率接近於零時,Google Cloud ML引擎出現「內存不足」錯誤
The replica master 0 ran out-of-memory and exited with a non-zero status of 247.
並根據日誌,一個非零退出狀態返回。如the official documentation中所述,代碼可能意味着訓練使用比分配更多的存儲器。
但是,內存利用率低於0.2。那麼爲什麼我有內存問題?如果有幫助,the memory utilization graph is here.
我在得到相同的錯誤後使用了large_model機器類型,但在與STANDARD_1縮放層相同數量的訓練步驟後失敗。你知道可能是什麼修復? – tzharg
@ rhaertel80,難道越來越多的工人解決這個問題,或者我們必須像你說的那樣使用更大型的機器類型? – LittleZero