cuda

1熱度

1回答

我創建了一個程序，需要用不同的輸入參數多次調用一個函數（lot !!）。爲了加快速度，我多線程這是這樣的： std::vector< MTDPDS* > mtdpds_list; boost::thread_group thread_gp; for (size_t feat_index = 0; feat_index < feat_parser.getNumberOfFeat(); ++fe

-1熱度

1回答

兩個向量的cuda點積不適用於N> = 369

我已經實現了一個向量點積如下。它與CUDA 7.5編譯爲compute_20,sm_20和const int THREADS_PER_BLOCK = 16;。浮動和雙打都發生這種情況。它工作到n=368，但除此之外，結果是不正確的。我想知道問題出在我的實現代碼還是我正在使用的值（請參閱第二個代碼，初始化），例如可能是除n=368之外的添加引入了浮點錯誤（這可能很奇怪，因爲浮點和雙精度同時出現

0熱度

1回答

推力::排序中使用哪種排序算法？

我對推力::排序實現感興趣。使用哪種排序算法？它是否使用了gcc的所有權力以及哪種類型的並行性？

0熱度

1回答

nvidia驅動程序，cuda驅動程序和cuda工具包之間的關係如何？

在nvidia驅動程序包中，有libcuda.so。 cuda驅動程序是否與nvidia驅動程序相同？ cuda toolkit和libcuda.so之間有什麼關係？

-2熱度

1回答

全球內存存儲操作減緩了我的cuda代碼iin if語句

你好，我是newbee的cuda平臺。由於我試圖在cuda中進行編碼，所以我遇到了非常不同類型的問題。正在寫展示我試圖做 int main() { unsigned char *s; cudaMalloc((void **)&s,32); cudaMemset(s,0,32); kern_launch<<<40000,1000>>>(s); } __global__ void k

-2熱度

1回答

並行嵌套for循環與cuda有很大的限制

我是CUDA的新手。我正在嘗試編寫一個CUDA內核來執行下面的一段代碼。 for(int oz=0;oz<count1;oz++) { for(int ox=0;ox<scale+1;ox++) { for(int xhn=0;xhn<Wjh;xhn++) { for(int yhn=0;yhn<Wjv;yhn++)

-2熱度

1回答

如何調整CUDA中的YUV圖像大小

如何調整CUDA中的YUV圖像大小？我嘗試將libyuv的縮放代碼轉換爲CUDA，但性能非常糟糕。 void ScalePlaneSimple(int src_width, int src_height, int dst_width, int dst_height, int src_stride, int dst_stride, const Npp8u* src_ptr, Npp8u* ds

1熱度

1回答

轉換推力設備迭代器爲原始指針

我正在考慮以下簡單代碼，我將thrust::host_vector<int>::iterator h_temp_iterator = h_temp.begin();和thrust::device_vector<int>::iterator d_temp_iterator = d_temp.begin();轉換爲原始指針。爲此，我將&(h_temp_iterator[0])和&(d_temp_it

3熱度

1回答

「持久模式」實際上會降低CUDA啓動時間嗎？

啓動CUDA運行時需要一定的時間來協調設備和主機的UVM存儲器映射;見： cudaGetCacheConfig takes 0.5 seconds - how/why? slowness of first cudaMalloc (K40 vs K20), even after cudaSetDevice 現在，它已經向我建議使用Persistence Mode會顯著緩解這一現象。以什麼方式？我的意

3熱度

1回答

GTX 980 ti上的動態並行：未知錯誤

我正在嘗試GTX 980 ti卡上的動態並行。運行代碼的所有嘗試都返回「未知錯誤」。簡單代碼如下所示，帶有編譯選項。我可以執行內核depth=0沒有問題。第一次調用小孩時，會給出錯誤。 cudaDeviceSynchronize()在查看其他問題後被納入，但沒有解決問題。任何想法？這可能是一個驅動程序問題嗎？編輯1：操作系統：Linux-x86_64的的Nvidia驅動程序版本：3