cuda

    1熱度

    1回答

    如何編寫CUDA代碼以在計算機上打印支持CUDA的設備。

    0熱度

    1回答

    typedef struct { long long int mem_0; } Tuple1; typedef struct { int tag; union { struct Tuple1 Union0Case0; } data; } Union0; C:/Users/Marko/Documents/Visual Studio 20

    1熱度

    1回答

    我是CUDA編程的初學者,有一個問題。 當我通過值傳遞參數,如下所示: __global__ void add(int a, int b, int *c) { // some operations } 由於可變一個和b被傳遞到核函數添加如在函數調用棧複製的值,我猜到一些存儲器空間將需要複製。 如果我是正確的,那些參數在GPU或Host的主內存中複製 的額外內存空間? 我想知道這個問

    -1熱度

    2回答

    我有一個很大的代碼庫,可以通過CUDA內核執行RGB到YUV的顏色轉換。由於我正在進行大量的並行轉換,因此我使用了流(可能與此處相關)。該代碼在Linux上運行,它在Quadro K4200 GPU上運行良好,但最近我有一個新的Quadro P4000 GPU,在撥打cudaDeviceSynchronize()時,我經常獲得cudaErrorUnknown。在發生這種情況之前,我所做的唯一事情就

    0熱度

    1回答

    我一直在成功使用GPU支持OpenCV一段時間,但是,我遇到了一個我似乎無法修復的情況。在用VS 2013和CUDA 8.0構建OpenCV 3.3之後,OpenCV cpu和gpu似乎可以在我的幾臺測試機器GTX 750 Ti和GTX 950M(都使用Windows 10)上正常工作。在另一臺裝有GTX 1050 Ti的機器上,CPU調用工作正常,但是在我的第一個OpenCV-cuda函數調用中

    0熱度

    1回答

    我想運行一個簡單的測試用例,其中動態分配的數組A被定義爲extern並使用OpenACC上傳到GPU。全部使用PGI編譯器。 我header.h文件: extern int *A; #pragma acc declare create(A) 然後,我header.c實現: int *A; #pragma acc declare copyin(A) 然後,在main.c

    0熱度

    1回答

    我正在嘗試學習CUDA。我在基於GPU的文章this的幫助下開始嘗試矩陣乘法。 我的主要問題是我無法理解如何訪問內核中的2D數組,因爲訪問2D數組與矩陣[i] [j]有點不同。 這是我堅持的部分: for (int i = 0; i < N; i++) { tmpSum += A[ROW * N + i] * B[i * N + COL]; } C[ROW * N + COL] =

    0熱度

    1回答

    與cuda 3.5兼容的舊源代碼與新的cuda版本不兼容,例如, 7.5。例如, cuda_runtime_api.cc: In function ‘cudaError_t cudaMemcpyToSymbol(const char*, const void*, size_t, size_t, cudaMemcpyKind)’: cuda_runtime_api.cc:556:141: erro

    0熱度

    1回答

    據我瞭解CUDA的所有版本都是向下兼容的,但是通過安裝CUDA和用TF建立一個虛擬環境的全過程後出現這種情況時,我import tensorflow ImportError: libcublas.so.8.0: cannot open shared object file: No such file or directory 這顯然意味着Tensorflow正在尋找CUDA 8.0,但沒有找到

    0熱度

    1回答

    我正在使用動態並行機制,我想創建一個模板內核,給出一個對象指針+成員函數指針執行函數。這是一個最小(未)工作實例中,具有-arch = compute_35 -dlink標誌編譯, #include <iostream> struct A { int i; __device__ void clear() { i = 0; } }; t