tensorflow: 1.2.0
gpu: TITAN X (Pascal)
driver: 370.28
我跑distrubuted tensorflow訓練圖像分類模型,但是沒有看到GPU使用(實際上,GPU UTIL MNIST或其他培訓工作也0)。GPU UTIL爲0時運行tensorflow培訓工作,上下文切換是非常高的
有當straced訓練過程中的許多民意調查系統調用(FD調查是/ dev/nvidia0):
poll([{fd=8, events=POLLIN}, {fd=12, events=POLLIN}, {fd=13, events=POLLIN}, {fd=14, events=POLLIN}, {fd=15, events=POLLIN}, {fd=17, events=POLLIN}, {fd=18, events=POLLIN}, {fd=19, events=POLLIN}, {fd=20, events=POLLIN}, {fd=21, events=POLLIN}], 10, 100 <unfinished ...>
futex(0x2d1eca4, FUTEX_WAIT_BITSET_PRIVATE|FUTEX_CLOCK_REALTIME, 3340677, {1502763800, 428734182}, ffffffff) = -1 ETIMEDOUT (Connection timed out)
vmstat顯示很高的上下文切換,數以百萬計CS每秒。
有人見過這個嗎?