cuda

    1熱度

    1回答

    我創建了一個程序,需要用不同的輸入參數多次調用一個函數(lot !!)。 爲了加快速度,我多線程這是這樣的: std::vector< MTDPDS* > mtdpds_list; boost::thread_group thread_gp; for (size_t feat_index = 0; feat_index < feat_parser.getNumberOfFeat(); ++fe

    -1熱度

    1回答

    我已經實現了一個向量點積如下。 它與CUDA 7.5編譯爲compute_20,sm_20和const int THREADS_PER_BLOCK = 16;。 浮動和雙打都發生這種情況。 它工作到n=368,但除此之外,結果是不正確的。我想知道問題出在我的實現代碼還是我正在使用的值(請參閱第二個代碼,初始化),例如可能是除n=368之外的添加引入了浮點錯誤(這可能很奇怪,因爲浮點和雙精度同時出現

    0熱度

    1回答

    我對推力::排序實現感興趣。 使用哪種排序算法?它是否使用了gcc的所有權力以及哪種類型的並行性?

    0熱度

    1回答

    在nvidia驅動程序包中,有libcuda.so。 cuda驅動程序是否與nvidia驅動程序相同? cuda toolkit和libcuda.so之間有什麼關係?

    -2熱度

    1回答

    你好,我是newbee的cuda平臺。由於我試圖在cuda中進行編碼,所以我遇到了非常不同類型的問題。 正在寫展示我試圖做 int main() { unsigned char *s; cudaMalloc((void **)&s,32); cudaMemset(s,0,32); kern_launch<<<40000,1000>>>(s); } __global__ void k

    -2熱度

    1回答

    我是CUDA的新手。我正在嘗試編寫一個CUDA內核來執行下面的一段代碼。 for(int oz=0;oz<count1;oz++) { for(int ox=0;ox<scale+1;ox++) { for(int xhn=0;xhn<Wjh;xhn++) { for(int yhn=0;yhn<Wjv;yhn++)

    -2熱度

    1回答

    如何調整CUDA中的YUV圖像大小?我嘗試將libyuv的縮放代碼轉換爲CUDA,但性能非常糟糕。 void ScalePlaneSimple(int src_width, int src_height, int dst_width, int dst_height, int src_stride, int dst_stride, const Npp8u* src_ptr, Npp8u* ds

    1熱度

    1回答

    我正在考慮以下簡單代碼,我將thrust::host_vector<int>::iterator h_temp_iterator = h_temp.begin();和thrust::device_vector<int>::iterator d_temp_iterator = d_temp.begin();轉換爲原始指針。 爲此,我將&(h_temp_iterator[0])和&(d_temp_it

    3熱度

    1回答

    啓動CUDA運行時需要一定的時間來協調設備和主機的UVM存儲器映射;見: cudaGetCacheConfig takes 0.5 seconds - how/why? slowness of first cudaMalloc (K40 vs K20), even after cudaSetDevice 現在,它已經向我建議使用Persistence Mode會顯著緩解這一現象。以什麼方式?我的意

    3熱度

    1回答

    我正在嘗試GTX 980 ti卡上的動態並行。 運行代碼的所有嘗試都返回「未知錯誤」。 簡單代碼如下所示,帶有編譯選項。 我可以執行內核depth=0沒有問題。 第一次調用小孩時,會給出錯誤。 cudaDeviceSynchronize()在查看其他問題後被納入,但沒有解決問題。 任何想法?這可能是一個驅動程序問題嗎? 編輯1: 操作系統:Linux-x86_64的 的Nvidia驅動程序版本:3