cuda

    3熱度

    1回答

    我正在使用PyCUDA,CUDAMat和Numba對GPU矩陣乘法進行基準測試,並遇到了一些行爲,我無法找到解釋方法。 我計算了3個不同步驟獨立需要的時間 - 將2個矩陣發送到設備存儲器,計算點積,並將結果複製回主機存儲器。 點積步驟的基準測試在一個循環中完成,因爲我的應用程序在發送結果之前將進行多次乘法運算。 隨着我增加循環次數,點積時間線性增加,就像預期一樣。但我無法理解的部分是,將最終結果發

    1熱度

    1回答

    如果我在cuda中使用fma(a,b,c),則意味着公式a b + c是在單個三元操作中計算的。但是如果我想計算-a b + c,那麼調用fma(-a,b,c)是否需要多一個乘法運算?

    0熱度

    1回答

    我具有單個GPU(例如的GeForce GTX 980Ti)。我有一個單一的浮陣列,例如,cudaMalloc'ed(分配在該單個裝置GPU)長度爲128的,與所有值是1.f.我想用nccl將它們相加得到128,即(1 + 1 + ... + 1)= 128。 但是,我讀了NCCL開發者文檔上的減少僅是跨設備,而不能在一個單一的設備,如果我正確地解釋它: 比照http://docs.nvidia.

    0熱度

    1回答

    我在下面的代碼(它是一個模式減少)獲取啓動錯誤,並且經過一段時間後,我注意到對於較小的值比39的q是好的,但如果它變得更高,我會得到啓動錯誤。 在開始我認爲它是嵌套循環的數量過多,但在底部,我注意到即使使用附加的嵌套循環,較低的值q也可以。 在cuda調試模式下,不報告錯誤。 問題 它是一個堆棧錯誤? 假設q的最大值等於最大值 無符號短小它仍然可行嗎? 所作的代碼簡單越好: #include "d

    1熱度

    1回答

    計算存儲器帶寬如何計算GPU存儲器帶寬與下式給出: 數據樣本的大小(以Gb)。 內核執行時間(nvprof輸出)。 GPU:gtx 1050 ti Cuda的:8.0 OS:Windows 10 IDE:Visual studio 2015 通常我會用這個公式:bandwidth [Gb/s] = data_size [Gb]/average_time [s]。 但是,當我使用get_mem_ke

    0熱度

    1回答

    我想使用LLVM/Clang在我的Nvidia GPU上運行OpenMP4 +代碼。我按照這裏找到的說明下載並編譯了從trunk中編譯的llvm/clang/omp庫:https://clang.llvm.org/get_started.html和here:https://openmp.llvm.org/。我沒有編譯Compiler-RT和libcxx,但我認爲這沒有什麼區別。 我的CMake命令

    1熱度

    1回答

    我需要從內核調用cuBLAS函數和我的一些內核函數。 如何在Alea GPU中這樣做? 在Alea GPU不支持的情況下,C#上是否有這樣的功能。

    -1熱度

    1回答

    所以我想模擬一個名爲Tasep的一維物理模型。 我寫了一個代碼來模擬C++中的這個系統,但我絕對需要提升性能。 該模型非常簡單(下面的C++代碼) - 1和0的數組。 1代表顆粒並且0是無顆粒,意思是空的。一個粒子向右移動一個元素,速度爲1,如果該元素爲空。最後一個位置的粒子將以beta(比如0.3)的速度消失。最後,如果第一個位置是空的,則粒子將出現在那裏,速率爲alpha。 一個線程很容易,我

    -2熱度

    1回答

    我已經編寫了一個程序來在cuda編程中進行矩陣乘法,但是我得到了一些錯誤。我提到了r =錯誤,我收到了。 expected an identifier代碼行int a=0,b=0 expression must be a modifiable lvalue行代碼b=arr2[(a*b)+row] 我剛纔提到的代碼below.I感到非常乞討CUDA programming.please幫我解決這個問

    0熱度

    1回答

    我試圖將cv::cuda::FarnebackOpticalFlow算法的輸出轉換爲無符號字節的3個YUV平面(用於通過FFMPEG進行後續壓縮)。 我在調用stream.waitForCompletion()(未在此處顯示)時收到錯誤代碼-217(「未指定的啓動失敗」);在我的內核中觸發錯誤的原因是嘗試爲輸出GpuMat對象之一分配一個值(請參閱下面的行dst_y(y, x) = ...)。 我