cuda

    0熱度

    2回答

    我的配置是這樣的: Ubuntu 16.04 Java 1.8 Python 2.7.12 Caffe 1.0 Cuda 8.0 Nvidia driver 375-66 PyDev 5.7.0.201704111357 And I tried to run this in bash: https://github.com/ZheC/Realtime_Mul

    1熱度

    1回答

    我重載操作以在vectorspace.cuh超過float3向量空間(以及類似的結構): // Boilerplate vector space over data type Pt #pragma once #include <type_traits> // float3 __device__ __host__ float3 operator+=(float3& a, const f

    4熱度

    1回答

    我看到,nvprof可以剖析內核中觸發器的數量(使用下面的參數)。當我瀏覽文檔時(這裏是http://docs.nvidia.com/cuda ......它說flop_count_sp是「由非謂詞線程執行的單精度浮點運算的數目(加法,乘法,乘法 - 累加和特殊)。每次乘法累加運算貢獻2計數。」 然而,當我運行的flop_count_sp結果(這應該是flop_count_sp_add + flo

    1熱度

    1回答

    我試圖做一個簡單的fft並比較MATLAB和CUDA之間的結果。 MATLAB: 矢量9號1-9 I = [1 2 3 4 5 6 7 8 9]; ,並使用此代碼: fft(I) 給出了結果: 45.0000 + 0.0000i -4.5000 +12.3636i -4.5000 + 5.3629i -4.5000 + 2.5981i -4.5000

    1熱度

    1回答

    我編寫了一個內核,用於使用約簡計算約100,000個浮點數的最小值和最大值(請參見下面的代碼)。我使用線程塊將1024個值的塊減少爲單個值(在共享內存中),然後在CPU上的塊之間進行最終減少。 然後,我將它與僅在CPU上進行的串行計算進行了比較。 CUDA版本需要2.2ms,CPU版本需要0.21ms。爲什麼CUDA版本要慢得多?數組大小不夠大,無法利用並行性,或者我的代碼沒有經過優化? 這是Ud

    4熱度

    1回答

    我們有兩個GPU內存,其中一個分配爲cuMalloc作爲正常的設備內存,另一個分配爲cuMallocManaged作爲統一內存。它們之間可以複製嗎?如果我們使用驅動程序API,我應該使用什麼方向? float* normalMem, unifiedMem; cuMalloc(&normalMem, 100); cuMallocManaged(&unifiedMem, 100); cuMemc

    2熱度

    1回答

    我正在分析一些代碼,但無法找出性能差異。我試圖在兩個數組之間做一個簡單的元素明智的添加(就地)。這是CUDA內核使用numba: from numba import cuda @cuda.jit('void(float32[:], float32[:])') def cuda_add(x, y): ix = cuda.threadIdx.x + cuda.blockIdx.x *

    0熱度

    1回答

    我有權訪問計算服務器,該服務器使用舊版本的nvidia驅動程序(346)和cuda(7.0),並根據特定版本的cuda使用應用程序。 是否可以升級驅動程序並保留舊的cuda? 我可以找到最小的驅動程序版本,但不是最大的驅動程序版本。

    1熱度

    1回答

    我一直在嘗試編寫一個程序,該程序使用GPU來使用高斯正交數值積分來計算積分。我一直在試圖弄清楚爲什麼這個程序不能正常工作。我想我把它固定在一個事實上,即在函數調用d_one中傳遞的參數沒有被正確地複製到cuda c代碼中。我不知道爲什麼會發生這種情況。我花了很多時間試圖弄清楚,但是我無法得到它。 這裏有兩個方案: Fortran程序: implicit real*8(a-h,o-z) p

    -3熱度

    1回答

    我打算使用cuda sample中的grabcutNPP來加速圖像處理。原始示例代碼是爲FIBITMAP實現的,但我的輸入/輸出類型將是Mat。 我已經想通了大部分的代碼,但卡在cudaMemcpyDeviceToHost一步... ...作爲一個初學者CUDA,我沒有任何理由爲什麼它總是在這一步 這裏是我的代碼部分停止: void grabcutGPU(Mat& _src, Mat& _dst,