gpgpu

    -1熱度

    1回答

    我要求對以下問題的一個提醒: 對於一個研究項目,我基於與(PY)的OpenCL GPU的寫蠻力算法。 (我知道JTR就在那裏) 現在我有蠻力發電機在Python被填滿每一輪與字(量= 1024 * 64).I通緩衝GPU內核的緩衝區。 GPU正在計算緩衝區中的每個值a MD5哈希值並將其與給定值進行比較。太棒了! 但是: 我不認爲這是真正的充分表現,我可以從GPU獲得 - 或者是什麼呢?當我不得不

    0熱度

    2回答

    我試圖找到方法來實時過濾和渲染1億個數據點作爲熱圖。 除了(x,y)座標之外,每個點都有一組固定的屬性(int,date,bit flags),用戶可以動態選擇這些屬性來篩選數據集。 在GPU上加速此任務的全部或部分是否可行?

    1熱度

    1回答

    我想知道如果我可以在cuda中使用libsvm。 我通過交叉驗證尋找最佳參數,所以我必須在4000左右運行相同的代碼,並使用不同的參數。 我不知道如果我能與CUDA並行運行交叉驗證, ,而不是使用: for i in range(4000): predict(parameter) find_best_parameter()

    1熱度

    1回答

    我已經在Python中實現了一個並行BF Generator,就像這篇文章一樣! Parallelize brute force generation。 我想在GPU上實現這種並行技術。應該像一個GPU上的並行BF Generator。 有人可以幫我看一下GPU上並行BF Generator的一些代碼示例嗎? 無法在網上找到這讓我懷疑任何的例子... THX

    2熱度

    1回答

    我在這裏看到了堆棧溢出處理相同問題的幾個問題,但沒有明確的答案。我想我會再問一次,並附帶一些我自己的問題。都涉及到手頭的主題。 那麼,我們知道從主機到openCL設備的數據傳輸何時發生嗎?你能告訴我下面的函數(即,哪些數據被傳輸或創建的,如果有的話,當這些函數被調用?)確切的內存傳輸操作: clCreateBuffer() clSetKernelArg() clEnqueueNDRangeKern

    -3熱度

    1回答

    我是GPU並行計算的新手,我試圖通過查看NVidia「CUDA示例」一書中的一些示例來了解CUDA。 我不明白在這樣一個簡單的例子(兩個向量的點積)中如何線程訪問和變量變量。 內核函數的定義如下 __global__ void dot(float *a, float *b, float *c) { __shared__ float cache[threadsPerBlock]; in

    0熱度

    1回答

    我正試圖在3x3矩陣和360x360矩陣之間進行矩陣乘法。較小的矩陣(3x3)將用大矩陣的第一個(3x3)塊等操作。因此,我想讓我的小矩陣保持不變,並將其滑過我的大矩陣。 是否可以將我的較小矩陣存儲爲共享內存的一部分,並將我的較大矩陣劃分爲全局3x3? 我沒有找到方法來複制較小的矩陣,直接從主機共享。如果我的cuda可視化是錯誤的,請糾正我。 謝謝。

    -5熱度

    1回答

    我使用統一,我想發送一個字節數組到GPU使用HLSL。我知道ByteAddressBuffer,但我不知道如何使用它。我有點想知道如何發送「字節」到GPU。我想在我的計算着色器中有一個StructuredBuffer<byte>。

    17熱度

    1回答

    我知道nvidia-smi -l 1會每秒鐘給出GPU使用率(類似於以下內容)。不過,我希望能解釋一下Volatile GPU-Util的真正含義。這是使用SMs總數超過總SM,或佔用,或其他? +-----------------------------------------------------------------------------+ | NVIDIA-SMI 367.48

    1熱度

    1回答

    我正在嘗試爲Metal中的n大小的向量編寫一個標準或平方長度函數。爲此,我計劃讓每個線程平均每個元素,然後選擇一個線程來總和所有元素。 這裏是我當前的內核: #include <metal_stdlib> #include <metal_compute> using namespace metal; kernel void length_squared(const device float