2017-07-03 46 views
0

我做了一個簡單的程序,輸入一個矢量加法器,並想測試執行時間與組大小。 當我將1024到5012的組大小更改爲256和128時。執行時間非常相似。爲什麼?在我看來,當我使用更小的組時,我們應該有更多的組,並且它們可以並行工作在內核中,這可能導致更少的執行時間(例如,如果工作組大小從512更改爲256,執行時間應該減少一半? )但在我的gpu經驗中,執行時間是否相似?我的看法不對?groupsize vs執行時間?

回答

0

由於每組工作項目的數量對於向量添加不是可見的瓶頸。全球內存性能是瓶頸。如果數據來自主機,那麼pci-e性能也是瓶頸。