cuda

    0熱度

    1回答

    在CUDA中,是否將統一內存指針傳遞給內核會降低程序的速度? 我得到了一個內核在做某些事情,然後我在內核之外創建了一些統一的內存cudaMallocManage,然後將指針傳遞給內核作爲參數。我用cuda_Event來計時。內核運行速度從1900毫秒到3000毫秒要慢得多。 爲什麼傳遞指針需要太多?一個指針? 我應該如何加快程序?

    0熱度

    1回答

    我在Cuda C中做了一個分形,並且我已經爲1024 * 1024的圖像做了我的程序,但我想要2048 * 2048的更大圖像,我有關於圖像映射如何幫助我的問題附件我的兩個代碼1024 * 1024和我是什麼要做 #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> #include <iostream>

    0熱度

    1回答

    下面是來自Nvidia Nsight Visual Studio版本的一個窗口。 我想分析我的CUDA代碼,但我使用的是Nvidia Nsight Eclipse Edition。有人能告訴我如何在Eclipse版本中獲得這些信息嗎?我搜索和搜索,但找不到任何方法。這個問題可能看起來很天真,但它讓我感到非常沮喪。 謝謝!

    -1熱度

    1回答

    我最近使用eigen編寫了一個C++程序。但是我發現我可憐的CPI無法處理大量的計算負荷。我估計它至少需要一天的計算時間,但我缺乏時間,特別是因爲我也可能需要調試時間。我正在考慮使用GPU加速,但我不知道如何使我的代碼適合CUDA(或其他平臺,但我更喜歡CUDA)。 是否有任何方便的方法將GPU加速應用於特徵程序?

    0熱度

    1回答

    在尖點,還有一個乘法來計算SPMV(稀疏矩陣向量乘法),其採用一降低和一個結合:對於任何矩陣 template <typename LinearOperator, typename MatrixOrVector1, typename MatrixOrVector2, typename UnaryFunction, typename Binar

    0熱度

    1回答

    我想在顯示器上顯示處理過的視頻。對於CUDA中的視頻處理,我正在考慮購買Nvidia Tesla等級卡,但它沒有任何視頻輸出端口。有沒有辦法在Tesla GPU卡上創建幀緩衝區,然後將其傳輸到系統內存並通過主板圖形顯示? PS:我不想在CPU上計算任何東西,以獲得接近實時的性能。

    4熱度

    1回答

    從NVIDIA CUDA C Programming Guide: 註冊用法可以使用編譯器maxrregcount 選項控制或如啓動界描述啓動邊界。 從我的理解(和糾正我,如果我錯了),而-maxrregcount限制寄存器整個.cu文件可以使用的數量,__launch_bounds__預選賽定義每個__global__內核maxThreadsPerBlock和minBlocksPerMultip

    0熱度

    1回答

    運行使用來自Caffe,很多時候一個CUDA訓練過程內存不足的錯誤後,會出現: F0623 11:47:16.616804 6986 syncedmem.cpp:56] Check failed: error == cudaSuccess (2 vs. 0) out of memory 通過運行nvidia-smi我看到,仍然有剩下的進程在運行已沒有正確關閉。什麼是清除記憶的最好方法?殺死這個

    -2熱度

    1回答

    我可以在Linux Mint 18.1 Serena(Cinnamon桌面環境)上安裝CUDA工具包嗎?我問這是因爲它沒有在支持的操作系統列表中列出,儘管它具有基於Ubuntu 16.04的相同體系結構。我的GPU是NVidia GeForce 820M。 CPU - i5第五代5200U。 4GB RAM DDR3。

    1熱度

    1回答

    我試圖用輪廓探查NIVIDA我的代碼,但是我在時間軸上遇到奇怪的差距,如下圖所示: 注:這兩個內核在CgapMemCpyAsync(主機到設備) 我在Ubuntu 14.04上運行最新版本的CUDA,8.0.61和最新的Nvidia顯示驅動程序。 英特爾集成顯卡用於顯示不是Nvidia。所以,Nvidia顯卡只運行代碼,而不是其他任何東西。 我已啓用CPU分析以及檢查這些差距,但沒有顯示! 此外,