memory-bandwidth

4熱度

1回答

CUDA blocksize 1024x1 vs 32x32會有任何性能差異嗎？

從線程調度和內存帶寬的角度來看，這兩個塊大小（1024x1與32x32）是如何執行的？這兩種塊尺寸的性能有任何預期的差異？請注意，每個塊都使用1024個線程。

3熱度

4回答

我有一個必須轉換爲整數的字節數組（unsigned char *）。整數用三個字節表示。這是我做了什麼 //bytes array is allocated and filled //allocating space for intBuffer (uint32_t) unsigned long i = 0; uint32_t number; for(; i<size_tot; i+=3){

1熱度

1回答

CUDA帶寬測試獲得可達峯值

我想知道我的CUDA內核在內存帶寬利用率方面的表現如何。我在帶有ECC的Tesla K40c上運行它們。 bandwidthTest實用程序給出的結果是否與可達到的峯值很接近？否則，如何編寫一個類似的測試來尋找峯值帶寬？我的意思是設備內存帶寬。

1熱度

1回答

有效存儲器帶寬

假設我有執行跨距存儲器訪問如下內核： __global__ void strideExample (float *outputData, float *inputData, int stride=2) { int index = (blockIdx.x * blockDim.x + threadIdx.x) * stride; outputData[index] = in

0熱度

1回答

OpenMP和內存帶寬限制

編輯：我的第一個代碼示例是錯誤的。固定更簡單。我實現用於大向量和矩陣之間的代數操作的C++庫。我在x86-x64 CPU上發現OpenMP並行向量添加，點積等不會比單線程速度快。並行操作比單線程速度快1％-6％。這是因爲內存帶寬限制（我認爲）。所以，問題是，有沒有真正的代碼的性能優勢是這樣的： void DenseMatrix::identity() { assert(heig

0熱度

1回答

GDDR5每個週期可以裝載多少數據？

nVidia GTX980擁有224GB/s的帶寬和7Gbps的內存時鐘。它的總線寬度是256位。我們可以計算從GDDR5並行加載多少最大/最小數據？我可以從224GB/s除以7Gbps得出答案嗎？

3熱度

3回答

指針的使用是否會導致內存堵塞？

假設我有這樣的結構c++： class A{ public: B b; } class B{ public: C c; } class C{ public: double x; double y; double z; double s; function Usize(){ s

8熱度

3回答

如何從內存時鐘/顯存速度的內存帶寬

僅供參考，下面是我來自Nvidia得到 http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-680/specifications http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-titan/specifications 注意規格的顯存速度/顯存頻率是一樣的在他們的網站上都

-1熱度

1回答

有關PCI Express插槽傳輸速率的GPU帶寬說明（v1.x - x16）

只需要瞭解與PCI Express傳輸速率相關的GPU帶寬的一些說明。這會幫助我瞭解如何卡圖形的實際工作... 所以來計算帶寬： Memory Speed x Bus Width/8 = Bandwidth (B/s) 所以，如果我的顯卡具有總線寬度爲256和內存速度爲900MHz的上GDDR3 Bandwidth = 900MHz * 256/8 = 28GB/s (28GB/s * 2 =

5熱度

2回答

OpenMP和核/線程

我的CPU是具有2個核和4個螺紋的酷睿i3 330M。當我在終端執行命令cat /proc/cpuinfo時，就像我有4個CPUS。當我使用OpenMP功能get_omp_num_procs()我也得到4. 現在我有一個標準的C++向量類，我的意思是一個固定大小的雙數組類，不使用表達式模板。我仔細並行了我班的所有方法，並獲得了「預期」的加速。的問題是：我可以猜測的預期增速在這樣一個簡單的例子？例