在玩了一段時間的當前分佈式訓練實現後,我認爲它將每個GPU視爲一個單獨的工作者。但是,現在在一個盒子中有2〜4個GPU 。採用單盒多GPU方法先計算單個盒子中的平均梯度,然後跨多個節點同步,是不是更好?這樣就可以緩解I/O流量,這總是數據並行性的瓶頸。由於SyncReplicasOptimizer直接將優化器作爲輸入,所以我被告知使用當前實現將單個盒子中的所有GPU作爲工作人員,但我無法弄清楚如何將平均梯度與SyncReplicasOptimizer聯繫起來。張多流分佈式訓練混合多GPU方法
任何人的想法?