prefix-sum

1熱度

2回答

我一直在試圖運行計算着色器 - 前綴和演示在提供： https://github.com/openglsuperbible/sb7code/blob/master/src/prefixsum/prefixsum.cpp 我使用的確切代碼： #define NUM_ELEMENTS 2048 float random_float() { static unsigned int see

3熱度

1回答

數據並行Haskell前綴總和

我正在玩一些Data Parallel Haskell代碼，發現自己需要prefix sum。但是，我沒有看到dph package前綴總和中的任何基本運算符。我推出我自己的，但由於我是新來的DPH，我不知道這是否是正確採取並行的優勢： {-# LANGUAGE ParallelArrays #-} {-# OPTIONS_GHC -fvectorise #-} module Prefix

0熱度

1回答

PRAM IF-THEN-ELSE CREW/EREW

在我的並行算法的書沒有爲PRAM模型下面的僞代碼： procedure PrefixSumPRAM(A, n): BEGIN b := new Array(2*n-1); b[1] := SumPRAM(A, n); //this will load A with the computation tree and return the sum for i := 1

1熱度

2回答

opencl-並行減少不帶本地內存

大多數用於並行減少的算法使用共享（本地）內存。 Nvidia，AMD，Intel等。但是，如果設備沒有共享（本地）內存。我該怎麼辦？如果我使用相同的算法，但在全局內存上存儲臨時值，它會工作正常嗎？

1熱度

1回答

收集MPI_SCAN的結果

我有這個數組[1 2 3 4 5 6 7 8 9]，我正在執行掃描操作。我有3個MPI任務，並將每個任務得到3個元素然後每個任務計算其掃描並返回結果掌握任務 task 0 - [1 2 3] => [1 3 6] task 1 - [4 5 6 ] => [4 9 15] task 2 - [7 8 9] => [7 15 24] 現在任務0得到所有的結果[1 3 6] [4 9 15

0熱度

2回答

OpenCL掃描代碼

我正在尋找OpenCL中scan（prefixsum）的快速實現。我發現的最好的東西是在Nvidia SDK中，但它已經很老了（2010）。有沒有人知道在OpenCL中掃描的其他任何實現？

2熱度

2回答

CUDA：atomicAdd需要太多時間，序列化線程

我有一個內核，它進行一些比較並決定兩個對象是否發生碰撞。我想將碰撞對象的ID存儲到輸出緩衝區。我不想在輸出緩衝區中有空隙。我想將每次碰撞記錄到輸出緩衝區中的唯一索引。所以我在共享內存（局部總和）和全局內存（全局總和）中創建了一個原子變量。下面的代碼顯示了發現碰撞時共享變量的增量。現在我沒有在全局內存中增加原子變量的問題。 __global__ void mykernel(..., unsigne

0熱度

1回答

前綴掃描gpugems3中的CUDA示例代碼是否正確？

我寫了一段代碼來調用內核gpugem3 但我得到的結果是一堆負數而不是前綴掃描。我想知道我的內核調用是錯誤的還是gpugem3代碼有問題？這裏是我的代碼： #include <stdio.h> #include <sys/time.h> #include <cuda.h> __global__ void kernel(int *g_odata, int *g_idata, int n