memory-bandwidth

    4熱度

    1回答

    從線程調度和內存帶寬的角度來看,這兩個塊大小(1024x1與32x32)是如何執行的?這兩種塊尺寸的性能有任何預期的差異?請注意,每個塊都使用1024個線程。

    3熱度

    4回答

    我有一個必須轉換爲整數的字節數組(unsigned char *)。整數用三個字節表示。這是我做了什麼 //bytes array is allocated and filled //allocating space for intBuffer (uint32_t) unsigned long i = 0; uint32_t number; for(; i<size_tot; i+=3){

    1熱度

    1回答

    我想知道我的CUDA內核在內存帶寬利用率方面的表現如何。我在帶有ECC的Tesla K40c上運行它們。 bandwidthTest實用程序給出的結果是否與可達到的峯值很接近?否則,如何編寫一個類似的測試來尋找峯值帶寬? 我的意思是設備內存帶寬。

    1熱度

    1回答

    假設我有執行跨距存儲器訪問如下內核: __global__ void strideExample (float *outputData, float *inputData, int stride=2) { int index = (blockIdx.x * blockDim.x + threadIdx.x) * stride; outputData[index] = in

    0熱度

    1回答

    編輯:我的第一個代碼示例是錯誤的。固定更簡單。 我實現用於大向量和矩陣之間的代數操作的C++庫。 我在x86-x64 CPU上發現OpenMP並行向量添加,點積等不會比單線程速度快。並行操作比單線程速度快1%-6%。 這是因爲內存帶寬限制(我認爲)。 所以,問題是,有沒有真正的代碼的性能優勢是這樣的: void DenseMatrix::identity() { assert(heig

    0熱度

    1回答

    nVidia GTX980擁有224GB/s的帶寬和7Gbps的內存時鐘。它的總線寬度是256位。 我們可以計算從GDDR5並行加載多少最大/最小數據? 我可以從224GB/s除以7Gbps得出答案嗎?

    3熱度

    3回答

    假設我有這樣的結構c++: class A{ public: B b; } class B{ public: C c; } class C{ public: double x; double y; double z; double s; function Usize(){ s

    8熱度

    3回答

    僅供參考,下面是我來自Nvidia得到 http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-680/specifications http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-titan/specifications 注意規格的顯存速度/顯存頻率是一樣的在他們的網站上都

    -1熱度

    1回答

    只需要瞭解與PCI Express傳輸速率相關的GPU帶寬的一些說明。這會幫助我瞭解如何卡圖形的實際工作... 所以來計算帶寬: Memory Speed x Bus Width/8 = Bandwidth (B/s) 所以,如果我的顯卡具有總線寬度爲256和內存速度爲900MHz的上GDDR3 Bandwidth = 900MHz * 256/8 = 28GB/s (28GB/s * 2 =

    5熱度

    2回答

    我的CPU是具有2個核和4個螺紋的酷睿i3 330M。當我在終端執行命令cat /proc/cpuinfo時,就像我有4個CPUS。當我使用OpenMP功能get_omp_num_procs()我也得到4. 現在我有一個標準的C++向量類,我的意思是一個固定大小的雙數組類,不使用表達式模板。我仔細並行了我班的所有方法,並獲得了「預期」的加速。 的問題是:我可以猜測的預期增速在這樣一個簡單的例子?例