我對CUDA編程相當陌生,所以請原諒我,如果這是一個愚蠢的問題。CUDA使用較大陣列的內容填充小陣列
在CUDA中,我試圖用大型設備陣列A(〜2000萬個int
元素)的內容填充一個小型設備陣列B(~20000 int
元素)。 A包含大部分零,但有大約20000個非零元素,位於數組中的隨機和未知位置。我想使用CUDA填充B的非零內容。 B中元素的順序並不重要。
我看了一下SDK,發現了一些「減少」策略,例如對數組進行並行求和,但是每種方法都會將數組減少到標量,而我試圖「減少「一個陣列到一個更小的陣列。在線搜索還沒有產生任何東西。我不是在尋找完整的代碼,而只是關於如何實現這個的一些想法/鏈接。我使用C,並且如果可能的話,我想在不使用任何C++類或結構的情況下執行此操作。
非常感謝您的幫助。
感謝您的幫助!這正是我所期待的:未來谷歌搜索的一些條款,以及一些讓我開始的鏈接。 – user1004061 2015-01-09 20:28:05