cuda

    0熱度

    1回答

    我正在使用 - 每個線程的默認流,以便從2個非默認流中的2個主機線程發出內核。所有工作正常,直到我想在兩個線程中使用cudnn,因爲任何對cudnn api的調用都將在默認線程上執行該api。 我想運行每個cudnn api在關聯到主機線程,使cudnn api調用。我知道我可以使用cudnnSetStream()來設置非默認流,但我需要獲取與主機線程關聯的流,以便將其傳遞給cudnnSetStr

    0熱度

    1回答

    我在與下面的CUDA(工具包版本9.0)代碼上視覺工作室2017編譯錯誤未定義: __global__ void increment_atomic(int *g) { // which thread is this? int i = blockIdx.x *blockDim.x + threadIdx.x; // each thread to increment consecutive e

    1熱度

    1回答

    如果線程中的數據請求頻率非常高(每個線程從特定列中選取至少一個數據),那麼在常量內存中使用數據存儲是否會在Pascal體系結構中爲紋理提供任何好處? 編輯:這是一個分裂版本的this question改善社區搜索

    0熱度

    1回答

    我有我的CUDA程序中的一個未知的錯誤,它似乎被相關atomicadd功能。我編碼在Windows上的Visual Studio 2015年我的調用函數指定爲以下 int regionWidth=32; int regionHeight=32; dim3 gridSize(765,765); dim3 blockSize(regionWidth, regionHeight); cudaM

    1熱度

    1回答

    我考慮的可能性來處理在GPU上的數據虛擬尋址和統一存儲,這是太大的GPU內存和我有幾個問題。 如果我理解的正確,與映射存儲器中的數據駐留在主存儲器中,並轉移到訪問僅當GPU,因此它不應該是分配超過裝配到GPU存儲器的問題。 UVA是類似於映射的內存,但數據可被存儲在CPU和GPU兩者的存儲器英寸但是,GPU有可能在充滿自己的數據的情況下訪問主內存(與映射內存一樣)?在這種情況下會發生內存溢出嗎?我

    -1熱度

    1回答

    我有一個相當簡單的cuda問題,看起來應該是一個簡單的操作:根據第二個布爾值數組從第一個數組中刪除元素。我採取的步驟是: 創建與處理的輸入數組大小相同的bools的device_vector。 調用將從(1)中設置一些元素爲真的內核 使用來自(2)的已處理數組的謂詞調用輸入數組上的remove_if。 對於設置爲true的bool數組中的每個值,從輸入數組中刪除相應的元素。 我所看到的是輸入數組沒

    0熱度

    1回答

    我正在使用: 具有計算能力的GeForce GTX 1080 TI 6.1。 OpenCV 3.2版本(專爲VS2013,x64版本和調試配置分別構建)。 CUDA 8.0版本。 x64平臺的Visual Studio 2013,Relase和Debug配置。 我的目的是處理整個輸入圖像的一部分。 由左上角座標和寬度和高度聲明的圖像部分。 問題描述: 的無效的配置參數 CUDA錯誤rasied 僅

    2熱度

    2回答

    據我所知cv::cuda::PtrStep用於將GpuMat數據直接傳遞給定製內核。我發現一個頻道訪問的例子here但是我的情況是2頻道墊(CV_32FC2)。在這種情況下,我試圖實現複數絕對平方值,其中複數值編碼如下:實部是第一平面,虛部是給定的第二平面Mat。 我想: __global__ void testKernel(const cv::cuda::PtrStepSz<cv::Vec2f>

    1熱度

    1回答

    我試圖在我的筆記本電腦上運行this項目。我已經安裝了以下的東西。 CUDA: nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2015 NVIDIA Corporation Built on Tue_Aug_11_14:27:32_CDT_2015 Cuda compilation tools, release 7.5, V

    0熱度

    1回答

    我正在使用visual studio 2013. 用於用戶界面的MFC並在CUDA中做了一些繁重的計算。 我想加快這個過程,所以想把一些函數改爲內在函數。 但是出現錯誤消息,說它沒有定義。 我認爲這是值得做的CUDACC因爲device_functions.h說 如果CUDACC需要被定義爲使用全功能。 __device__ float cuint2float(int nInput) {