2017-01-16 35 views
0

我尋找到的代碼distributed inception model in TF,其中我有以下有關使用tf.train.Supervisor.start_queue_runners問題在inception_distributed_train.py分佈式TensorFlow:關於使用tf.train.Supervisor.start_queue_runners

  1. 爲什麼我們需要明確地撥打行 264和行269inception_distributed_train.py?在API doc. of start_queue_runners,我看有沒有必要因爲這樣 電話:

    注意收集隊列選手在圖形關鍵QUEUE_RUNNERS 已經自動啓動,當你創建一個 主管會話,因此,除非你有非收集隊列跑步者開始 你不需要明確地調用它。

  2. 我呼籲 sv.start_queue_runners都符合264inception_distributed_train.py269不同注意到的queue_runners值。但不是 chief_queue_runners也收集 tf.GraphKeys.QUEUE_RUNNERS(所有QUEUE_RUNNERS都獲得行263)?如果是 那麼,則不需要行269,因爲chief_queue_runners已經在264行 開始。

  3. 此外,請你給我解釋一下,或者給我看一些關於tf.train.Supervisor中創建什麼隊列的參考?

謝謝你的時間!

回答

1

不是一個答案,但有些一般說明如何找到一個答案:)

首先,使用GitHub的責備,inception_distributed被檢查了4月13日,而在4月15日加入在start_queue_runners這一評論,所以有可能是功能發生了變化,但在所有使用它的地方都沒有更新。

您可以註釋掉該行,看看事情是否仍然有效。如果沒有,您可以在創建隊列運行程序的地方添加import pdb; pdb.set_trace()(即here),並查看誰在創建這些額外的無人蔘與隊列運行程序。

此外,主管開發似乎已經放緩,事情已經轉移到FooSession(從評論here)。這些提供了更強大的培訓體系結構(您的工作人員不會因爲臨時網絡錯誤而崩潰),但是如何使用它們的例子並不多。

+0

感謝您的回覆,雅羅斯拉夫!我問了一些問題以獲得一些快速答案,我會檢查這些問題。此外,你轉移到FooSession的信息是有價值的。 –