2
我正在開發使用dask.distributed
的分佈式計算系統。我通過Executor.map
函數向其提交的任務有時會失敗,而其他看似相同的任務會成功運行。如何找到爲什麼一個任務失敗dask分佈?
框架是否提供了診斷問題的方法?
更新 通過失敗我的意思是增加計數器提供的Bokeh web UI中失敗任務的計數器。完成任務的計數器也增加。由該Executor.map
回報None
運行
功能。它與數據庫通信,從表中檢索一些行,執行計算和更新值。
我得在地圖40000個多任務,所以它是一個有點乏味學習日誌。
_fail_是什麼意思?任務永遠不會運行?該任務確實運行,但退出時有一個非零的退出代碼? –