我正在實施一個使用OpenCL的解決方案,並且我想要做以下事情,比如說你有一大堆你想要在GPU中複製的數據,並且有許多內核進程將其批量並將結果存儲在其特定的輸出緩衝區中。OpenCL Copy-Once分享了很多
真正的問題是在哪裏更快?每個內核都需要擁有它所需要的數組部分,或者在每個內核(在相同的上下文中)處理所需的批處理之前傳出整個數組,因爲它們具有相同的地址空間並且每個映射陣列併發。當然,這個數組是隻讀的,但並不是一成不變的,因爲每次執行內核時它都會發生變化......(所以我可以使用全局內存緩衝區來緩存它)。
另外,如果第二種方式實際上更快,您可以指示我如何實現這個方向,因爲我還沒有找到具體的東西(雖然我仍在搜索:))。
乾杯。
刪除cuda標記 – 2013-05-04 22:56:01
是的,對不起。 – jtimz 2013-05-05 01:41:57