2014-05-12 26 views
4

從線程調度和內存帶寬的角度來看,這兩個塊大小(1024x1與32x32)是如何執行的?這兩種塊尺寸的性能有任何預期的差異?請注意,每個塊都使用1024個線程。CUDA blocksize 1024x1 vs 32x32會有任何性能差異嗎?

+1

與索引關聯的ALU操作的數量可能會影響性能,但它通常佔執行的全部指令的次要百分比。用兩種方式編寫代碼並區分程序集。 –

回答

3

線程塊維度,特別是當我們談論每個塊的線程數相同時,不要單獨影響性能。

線程仍然是grouped for execution into warps。線程塊尺寸的唯一直接影響是改變內置變量,例如threadIdx.xblockIdx.x等傳遞給每個線程,這不是性能問題。

+0

這是有道理的。感謝您的洞察! – FundamentalAxiom