cuda

0熱度

2回答

的PyDev告訴「錯誤== cudaSuccess（35對0）CUDA驅動程序版本是不夠的CUDA運行時版本」，但命令行工作正常

我的配置是這樣的： Ubuntu 16.04 Java 1.8 Python 2.7.12 Caffe 1.0 Cuda 8.0 Nvidia driver 375-66 PyDev 5.7.0.201704111357 And I tried to run this in bash: https://github.com/ZheC/Realtime_Mul

1熱度

1回答

推力降低和重載操作符 - （常量FLOAT3＆，常量FLOAT3＆）不會編譯

我重載操作以在vectorspace.cuh超過float3向量空間（以及類似的結構）： // Boilerplate vector space over data type Pt #pragma once #include <type_traits> // float3 __device__ __host__ float3 operator+=(float3& a, const f

4熱度

1回答

Nvidia的FLOPS的nvprof輸出

我看到，nvprof可以剖析內核中觸發器的數量（使用下面的參數）。當我瀏覽文檔時（這裏是http://docs.nvidia.com/cuda ......它說flop_count_sp是「由非謂詞線程執行的單精度浮點運算的數目（加法，乘法，乘法 - 累加和特殊）。每次乘法累加運算貢獻2計數。」然而，當我運行的flop_count_sp結果（這應該是flop_count_sp_add + flo

1熱度

1回答

CUDA fft與MATLAB的不同結果fft

我試圖做一個簡單的fft並比較MATLAB和CUDA之間的結果。 MATLAB：矢量9號1-9 I = [1 2 3 4 5 6 7 8 9]; ，並使用此代碼： fft(I) 給出了結果： 45.0000 + 0.0000i -4.5000 +12.3636i -4.5000 + 5.3629i -4.5000 + 2.5981i -4.5000

1熱度

1回答

CUDA中的最小/最大浮點比CPU版本慢。爲什麼？

我編寫了一個內核，用於使用約簡計算約100,000個浮點數的最小值和最大值（請參見下面的代碼）。我使用線程塊將1024個值的塊減少爲單個值（在共享內存中），然後在CPU上的塊之間進行最終減少。然後，我將它與僅在CPU上進行的串行計算進行了比較。 CUDA版本需要2.2ms，CPU版本需要0.21ms。爲什麼CUDA版本要慢得多？數組大小不夠大，無法利用並行性，或者我的代碼沒有經過優化？這是Ud

4熱度

1回答

我們可以將「普通」GPU內存複製到「統一」內存嗎？

我們有兩個GPU內存，其中一個分配爲cuMalloc作爲正常的設備內存，另一個分配爲cuMallocManaged作爲統一內存。它們之間可以複製嗎？如果我們使用驅動程序API，我應該使用什麼方向？ float* normalMem, unifiedMem; cuMalloc(&normalMem, 100); cuMallocManaged(&unifiedMem, 100); cuMemc

2熱度

1回答

Numba python CUDA與簡單操作中的cuBLAS速度差異

我正在分析一些代碼，但無法找出性能差異。我試圖在兩個數組之間做一個簡單的元素明智的添加（就地）。這是CUDA內核使用numba： from numba import cuda @cuda.jit('void(float32[:], float32[:])') def cuda_add(x, y): ix = cuda.threadIdx.x + cuda.blockIdx.x *

0熱度

1回答

cuda 7.0：最高NVIDIA驅動程序版本

我有權訪問計算服務器，該服務器使用舊版本的nvidia驅動程序（346）和cuda（7.0），並根據特定版本的cuda使用應用程序。是否可以升級驅動程序並保留舊的cuda？我可以找到最小的驅動程序版本，但不是最大的驅動程序版本。

1熱度

1回答

將錯誤地從Fortran複製到cuda c程序的變量

我一直在嘗試編寫一個程序，該程序使用GPU來使用高斯正交數值積分來計算積分。我一直在試圖弄清楚爲什麼這個程序不能正常工作。我想我把它固定在一個事實上，即在函數調用d_one中傳遞的參數沒有被正確地複製到cuda c代碼中。我不知道爲什麼會發生這種情況。我花了很多時間試圖弄清楚，但是我無法得到它。這裏有兩個方案： Fortran程序： implicit real*8(a-h,o-z) p

-3熱度

1回答

cudaMemcpy2D到墊子

我打算使用cuda sample中的grabcutNPP來加速圖像處理。原始示例代碼是爲FIBITMAP實現的，但我的輸入/輸出類型將是Mat。我已經想通了大部分的代碼，但卡在cudaMemcpyDeviceToHost一步... ...作爲一個初學者CUDA，我沒有任何理由爲什麼它總是在這一步這裏是我的代碼部分停止： void grabcutGPU(Mat& _src, Mat& _dst,