回答
總的來說,分佈式TensorFlow方案將正是 - 分佈式TensorFlow,以最小的 - 甚至沒有 - 雲計算的具體變化。 tensorflow.org上分佈式TensorFlow的最佳資源是this tutorial。本教程將向您介紹做事的低級方式。
還有一個更高級的API,目前在contrib中(所以API可能會改變,將在未來版本中移出contrib),這將簡化您爲分佈式培訓編寫的樣板代碼的數量。官方教程是here。
一旦您瞭解了常規TensorFlow位(無論是高級API還是低級API),您的代碼中必須存在一些特定元素才能使其在CloudML Engine上運行。對於低級別的TensorFlow API,您需要解析TF_CONFIG環境變量來設置您的ClusterSpec。這在this example(特別參見this代碼塊)中被舉例說明。
更高級別的API的一個優點是,所有的解析已經爲你照顧。你的代碼應該一般工作。見this example。重要的一點是,您需要使用learn_runner.run()(請參閱this一行),這將在本地和雲中工作以訓練您的模型。
當然,還有其他的框架,例如TensorFX。
在適當地構建了代碼之後,只需選擇適當的scale tier,啓動您的培訓工作時就有多臺機器。 (請參閱Chuck Finley's答案舉例)
希望它有幫助!
您的問題在Run Distributed Training in the Cloud的參數「scale-tier」中回答嗎?
gcloud ml-engine jobs submit training $JOB_NAME \
--job-dir $OUTPUT_PATH \
--runtime-version 1.0 \
--module-name trainer.task \
--package-path trainer/ \
--region $REGION \
--scale-tier STANDARD_1 \
-- \
--train-files $TRAIN_DATA \
--eval-files $EVAL_DATA \
--train-steps 1000 \
--verbose-logging true
以下是有關分佈式培訓信息的直接鏈接:https://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-dist – rhaertel80
我認爲這個作業提交將在稍後的階段,一旦我修改了我的代碼,按照分佈式tensorflow。 – Appu
我已經能夠在分佈式環境中運行代碼,但截至目前,雲中的每臺計算機都在接收完整數據並在平均後生成輸出。我想知道如何將分佈式數據提供給雲中的每臺計算機 – Appu
如果您使用Tensorflow Estimators構建了您的模型,則需要做的更改非常少。你基本上可以將你的代碼插入this boilerplate code。
- 1. 如何在分佈式模式下運行TensorFlow的示例代碼?
- 2. 在谷歌雲上運行GPU的錯誤符號日誌ML
- 3. 65%的CPU和15%的內存與Tensorflow在谷歌雲ML
- 4. 在AWS上以分佈式模式運行OrientDB不起作用
- 5. 在谷歌雲再培訓盜當ML
- 6. 谷歌雲上的Tensorflow Keras API
- 7. 在分佈式集羣上運行python代碼
- 8. 分佈式Tensorflow重裝模式失敗
- 9. 谷歌雲ML scipy.misc.imread返回<PIL.JpegImagePlugin.JpegImageFile>
- 10. 谷歌雲ML沒有教練
- 11. 請求谷歌雲ML超時
- 12. 在谷歌雲上的工作人員之間分配數據ML
- 13. 在Google雲上運行代碼時,權限被拒絕錯誤ML
- 14. 谷歌雲ML引擎:創建模型版本失敗
- 15. 如何在雲上運行雲ML預處理?
- 16. 發佈模式跳過代碼部分
- 17. 如何在android中的發佈模式下運行代碼塊
- 18. 設置谷歌雲外殼雲環境ML
- 19. 谷歌雲端點模塊到谷歌雲模塊與GCM?
- 20. 谷歌雲消息和iOS位代碼
- 21. 如何從運行谷歌雲ml培訓實例收集性能指標?
- 22. 谷歌毫升引擎秤級未在遠程分佈式培訓中運行
- 23. 在谷歌雲平臺上連接到谷歌雲sql失敗
- 24. 谷歌雲存儲運行時錯誤
- 25. 在虛擬分佈式模式下運行Hadoop示例vm
- 26. 最簡單的方式在雲中運行Python代碼
- 27. 谷歌分析代碼
- 28. 如何運行tensorflow分佈式mnist示例
- 29. 運行分佈式tensorflow例如用錯誤
- 30. 無法運行tensorflow分佈式MNIST測試
非常感謝。它給了我一個起點,因爲我對如何修改我的代碼感到困惑。 – Appu
我已經能夠在分佈式環境中運行代碼,但截至目前,雲中的每臺計算機都在接收完整數據並在平均後生成輸出。 我想知道如何將分佈式數據提供給雲中的每臺機器。 – Appu
在gogle雲ML上提交作業時,出現主要培訓python文件(即task.py)無法從util文件夾中的python腳本導入函數的錯誤。 一般來說,我們寫:從util.xyz進口abc 這不會被調用在主task.py – Appu