gpgpu

-1熱度

1回答

我要求對以下問題的一個提醒：對於一個研究項目，我基於與（PY）的OpenCL GPU的寫蠻力算法。（我知道JTR就在那裏）現在我有蠻力發電機在Python被填滿每一輪與字（量= 1024 * 64）.I通緩衝GPU內核的緩衝區。 GPU正在計算緩衝區中的每個值a MD5哈希值並將其與給定值進行比較。太棒了！但是：我不認爲這是真正的充分表現，我可以從GPU獲得 - 或者是什麼呢？當我不得不

0熱度

2回答

在GPU上創建分面搜索和熱圖創建

我試圖找到方法來實時過濾和渲染1億個數據點作爲熱圖。除了（x，y）座標之外，每個點都有一組固定的屬性（int，date，bit flags），用戶可以動態選擇這些屬性來篩選數據集。在GPU上加速此任務的全部或部分是否可行？

1熱度

1回答

可以在cuda中使用libsvm嗎？

我想知道如果我可以在cuda中使用libsvm。我通過交叉驗證尋找最佳參數，所以我必須在4000左右運行相同的代碼，並使用不同的參數。我不知道如果我能與CUDA並行運行交叉驗證，，而不是使用： for i in range(4000): predict(parameter) find_best_parameter()

1熱度

1回答

並行蠻力算法GPU

我已經在Python中實現了一個並行BF Generator，就像這篇文章一樣！ Parallelize brute force generation。我想在GPU上實現這種並行技術。應該像一個GPU上的並行BF Generator。有人可以幫我看一下GPU上並行BF Generator的一些代碼示例嗎？無法在網上找到這讓我懷疑任何的例子... THX

2熱度

1回答

何時發生OpenCL數據傳輸？

我在這裏看到了堆棧溢出處理相同問題的幾個問題，但沒有明確的答案。我想我會再問一次，並附帶一些我自己的問題。都涉及到手頭的主題。那麼，我們知道從主機到openCL設備的數據傳輸何時發生嗎？你能告訴我下面的函數（即，哪些數據被傳輸或創建的，如果有的話，當這些函數被調用？）確切的內存傳輸操作： clCreateBuffer() clSetKernelArg() clEnqueueNDRangeKern

-3熱度

1回答

CUDA內核函數中的內存訪問（簡單示例）

我是GPU並行計算的新手，我試圖通過查看NVidia「CUDA示例」一書中的一些示例來了解CUDA。我不明白在這樣一個簡單的例子（兩個向量的點積）中如何線程訪問和變量變量。內核函數的定義如下 __global__ void dot(float *a, float *b, float *c) { __shared__ float cache[threadsPerBlock]; in

0熱度

1回答

cuda：使用共享和全局的矩陣乘法

我正試圖在3x3矩陣和360x360矩陣之間進行矩陣乘法。較小的矩陣（3x3）將用大矩陣的第一個（3x3）塊等操作。因此，我想讓我的小矩陣保持不變，並將其滑過我的大矩陣。是否可以將我的較小矩陣存儲爲共享內存的一部分，並將我的較大矩陣劃分爲全局3x3？我沒有找到方法來複制較小的矩陣，直接從主機共享。如果我的cuda可視化是錯誤的，請糾正我。謝謝。

-5熱度

1回答

發送一個字節[]到GPU？

我使用統一，我想發送一個字節數組到GPU使用HLSL。我知道ByteAddressBuffer，但我不知道如何使用它。我有點想知道如何發送「字節」到GPU。我想在我的計算着色器中有一個StructuredBuffer<byte>。

17熱度

1回答

nvidia-smi易失性GPU-利用率解釋？

我知道nvidia-smi -l 1會每秒鐘給出GPU使用率（類似於以下內容）。不過，我希望能解釋一下Volatile GPU-Util的真正含義。這是使用SMs總數超過總SM，或佔用，或其他？ +-----------------------------------------------------------------------------+ | NVIDIA-SMI 367.48

1熱度

1回答

同步Metal中的網格中的所有線程

我正在嘗試爲Metal中的n大小的向量編寫一個標準或平方長度函數。爲此，我計劃讓每個線程平均每個元素，然後選擇一個線程來總和所有元素。這裏是我當前的內核： #include <metal_stdlib> #include <metal_compute> using namespace metal; kernel void length_squared(const device float