cuda

3熱度

1回答

我正在使用PyCUDA，CUDAMat和Numba對GPU矩陣乘法進行基準測試，並遇到了一些行爲，我無法找到解釋方法。我計算了3個不同步驟獨立需要的時間 - 將2個矩陣發送到設備存儲器，計算點積，並將結果複製回主機存儲器。點積步驟的基準測試在一個循環中完成，因爲我的應用程序在發送結果之前將進行多次乘法運算。隨着我增加循環次數，點積時間線性增加，就像預期一樣。但我無法理解的部分是，將最終結果發

1熱度

1回答

fma中每個週期的指令編號是多少？

如果我在cuda中使用fma（a，b，c），則意味着公式a b + c是在單個三元操作中計算的。但是如果我想計算-a b + c，那麼調用fma（-a，b，c）是否需要多一個乘法運算？

0熱度

1回答

NCCL - 我們可以總結的陣列的所有的值在1個裝置GPU以獲得總和？

我具有單個GPU（例如的GeForce GTX 980Ti）。我有一個單一的浮陣列，例如，cudaMalloc'ed（分配在該單個裝置GPU）長度爲128的，與所有值是1.f.我想用nccl將它們相加得到128，即（1 + 1 + ... + 1）= 128。但是，我讀了NCCL開發者文檔上的減少僅是跨設備，而不能在一個單一的設備，如果我正確地解釋它：比照http://docs.nvidia.

0熱度

1回答

內核上的嵌套循環上的可能的堆棧溢出

我在下面的代碼（它是一個模式減少）獲取啓動錯誤，並且經過一段時間後，我注意到對於較小的值比39的q是好的，但如果它變得更高，我會得到啓動錯誤。在開始我認爲它是嵌套循環的數量過多，但在底部，我注意到即使使用附加的嵌套循環，較低的值q也可以。在cuda調試模式下，不報告錯誤。問題它是一個堆棧錯誤？假設q的最大值等於最大值無符號短小它仍然可行嗎？所作的代碼簡單越好： #include "d

1熱度

1回答

怪異的結果從輸出nvprof

計算存儲器帶寬如何計算GPU存儲器帶寬與下式給出：數據樣本的大小（以Gb）。內核執行時間（nvprof輸出）。 GPU：gtx 1050 ti Cuda的：8.0 OS：Windows 10 IDE：Visual studio 2015 通常我會用這個公式：bandwidth [Gb/s] = data_size [Gb]/average_time [s]。但是，當我使用get_mem_ke

0熱度

1回答

當使用Clang 6（trunk）編譯OpenMP`target`指令時與nvptx目標編譯器連接錯誤

我想使用LLVM/Clang在我的Nvidia GPU上運行OpenMP4 +代碼。我按照這裏找到的說明下載並編譯了從trunk中編譯的llvm/clang/omp庫：https://clang.llvm.org/get_started.html和here：https://openmp.llvm.org/。我沒有編譯Compiler-RT和libcxx，但我認爲這沒有什麼區別。我的CMake命令

1熱度

1回答

Alea GPU支持動態並行嗎？

我需要從內核調用cuBLAS函數和我的一些內核函數。如何在Alea GPU中這樣做？在Alea GPU不支持的情況下，C＃上是否有這樣的功能。

-1熱度

1回答

蒙特卡羅與費率，系統模擬與CUDA C++

所以我想模擬一個名爲Tasep的一維物理模型。我寫了一個代碼來模擬C++中的這個系統，但我絕對需要提升性能。該模型非常簡單（下面的C++代碼） - 1和0的數組。 1代表顆粒並且0是無顆粒，意思是空的。一個粒子向右移動一個元素，速度爲1，如果該元素爲空。最後一個位置的粒子將以beta（比如0.3）的速度消失。最後，如果第一個位置是空的，則粒子將出現在那裏，速率爲alpha。一個線程很容易，我

-2熱度

1回答

嘗試編譯cuda編程時出現錯誤

我已經編寫了一個程序來在cuda編程中進行矩陣乘法，但是我得到了一些錯誤。我提到了r =錯誤，我收到了。 expected an identifier代碼行int a=0,b=0 expression must be a modifiable lvalue行代碼b=arr2[(a*b)+row] 我剛纔提到的代碼below.I感到非常乞討CUDA programming.please幫我解決這個問

0熱度

1回答

OpenCV CUDA錯誤-217試圖執行我的自定義函數

我試圖將cv::cuda::FarnebackOpticalFlow算法的輸出轉換爲無符號字節的3個YUV平面（用於通過FFMPEG進行後續壓縮）。我在調用stream.waitForCompletion()（未在此處顯示）時收到錯誤代碼-217（「未指定的啓動失敗」）;在我的內核中觸發錯誤的原因是嘗試爲輸出GpuMat對象之一分配一個值（請參閱下面的行dst_y(y, x) = ...）。我