我開始使用CUDA,並且遇到了一些問題。我在下面發佈的代碼基本上是NVIDIA網站上最簡單的示例,其中添加了一些內存副本和打印語句以確保其正確運行。 代碼編譯並運行時沒有抱怨,但是當我打印矢量c時,它會顯示全零,就好像GPU內核函數根本沒有被調用。 這是差不多與此帖子完全一樣 Basic CUDA - getting kernels to run on the device using C++。
我有一個數組的大小爲3000的數組包含0和1.我想要找到第一個數組的位置,有1存儲在該位置從第0個索引開始.i將此數組傳遞給主機和此數組是在設備上計算出來的,然後我順序計算了Host.in上的索引,我的程序中我希望重複計算4000次或更多次。我想減少這個過程所花費的時間。有沒有其他方式可以做到這一點?而且這個陣列實際上是在GPU上計算的,所以我必須每次都傳輸它。 int main()
{
fo