cuda

    0熱度

    1回答

    我想在MITK平臺上使用CUDA。我使用的MITK平臺是2014版,不支持CUDA;然而,我發現了一個reply,它顯示了一個解決方案,但它不適合我。根據MITK的Cmake結構,如果我在files.cmake腳本中將「* .cpp」文件設置爲CPP_FILES標誌,gcc將編譯源代碼,但對於cuda,則不存在變量。因此,根據上述鏈路,我修改 「mitkFunctionCreateModule.c

    0熱度

    1回答

    我一直在玩弄numba並嘗試實現一個簡單的基於元素的矩陣乘法。當使用'vectorize'時,我會得到與numpy乘法相同的結果,但是當我使用'cuda.jit'時,它們不相同。其中許多是零。我爲此提供了一個最低工作示例。任何有關問題的幫助將不勝感激。我正在使用numba o.35.0和python 2.7 from __future__ import division from __futur

    -2熱度

    1回答

    我試圖使用google benchmark對某些CUDA代碼進行基準測試。首先,我沒有編寫任何CUDA代碼,只是想確保我可以對使用nvcc編譯的主機函數進行基準測試。在main.cu我 #include <benchmark/benchmark.h> size_t fibr(size_t n) { if (n == 0) return 0; if (n ==

    0熱度

    1回答

    我是nvprof的新用戶,當我嘗試使用nvprof來剖析我的代碼時出現錯誤。我在代碼中添加了一些OpenACC指令。我使用的cuda工具包是Cuda8.0。我的代碼是用fortran90 + OpenMPI編寫的。我使用16個核心進行並行計算。下面是我用來提交代碼的腳本: #!/bin/bash -l # #SBATCH --nodes=1 #SBATCH --ntasks=16 #SBA

    -1熱度

    1回答

    我最近在玩cuda/numba代碼。我有一個MxN矩陣(比如cumul_A),其中每行是一個累積概率分佈。我想從這些累積分佈中抽取一個樣本,通過映射一個均勻隨機分佈的樣本。簡單地說,可以說從均勻隨機分佈中抽取的樣本爲0.3。 cuda內核應該選擇一行'cumul_A'並將該行的每個元素(從該行的第一個元素開始)與0.3進行比較。一旦它的值大於0.3,內核應該將元素的索引存儲在輸出參數中並打破for

    0熱度

    1回答

    Cuda支持intrinsic functions。有些映射到設備指令,如融合乘法,無法用正常語法表示。其他的是近似值,認爲比「標準」功能更快(儘管可能不太準確)。 似乎後者類型的內在不支持雙精度參數,並且僅支持單精度浮點數。有道理:如果你使用雙打,你根據定義對速度的準確性感興趣。 然而,令我驚訝的是,__saturatef()固有的,夾在0和1之間的參數,沒有雙精度版本。 如果我在天真實施中使用

    0熱度

    1回答

    我很抱歉如果這個問題已經被解決了,但我已經做了一些搜索,到目前爲止我已經空手而歸了。我試圖編譯一個cuda版本的Hello World,從here稍微修改。我的代碼是: // This is the REAL "hello world" for CUDA! // It takes the string "Hello ", prints it, then passes it to CUDA wit

    -4熱度

    1回答

    我想計算GPU負載。如何獲得cuda的GPU負載百分比? enter image description here

    0熱度

    1回答

    以下程序顯示來自Video_Codec_SDK_8.0.14的NVIDIA NVTranscoder項目中的代碼轉換器的流程。 解碼器輸出每幀NV12格式。 但是,對於我的編碼部分,我收到的幀只能得到Y分量通道,我怎樣才能獲得所有的YUV分量通道? 另外,如何在經過一些處理後回寫CUdeviceptr? #include <time.h> #ifdef _WIN32 #include <win

    -2熱度

    1回答

    我的Mac book Pro有「Intel Iris Graphics 6100」,它不受CUDA支持。因此,我只想使用CPU版本的CUDA,但是我在官方網站上找不到這個版本。不再支持嗎?