gpu-programming

1熱度

1回答

我正在使用PhysiX實現流體模擬器。不幸的是，cuda上下文管理器存在問題，並且我在識別它是什麼時遇到問題。我有一個init方法，看起來像這樣： void InitializePhysX() { bool recordMemoryAllocations = true; const bool useCustomTrackingAllocator = true; Px

0熱度

1回答

如何將所有可用的共享內存分配給CUDA中的單個塊？

我想將SM的所有可用共享內存分配給一個塊。我這樣做是因爲我不希望將多個塊分配給同一個SM。我的GPU卡有64KB（共享+ L1）內存。在我目前的配置中，48KB分配給共享內存，16KB分配給L1。我編寫了下面的代碼來使用所有可用的共享內存。 __global__ void foo() { __shared__ char array[49152]; ... } 我有兩個問

1熱度

1回答

對於使用OpenMP的CPU，CUDA不那麼快？

我正試圖計算每個大小爲20000的450個向量之間的互相關。在CPU上執行此操作時，我將數據存儲在行數= 20000和cols = 450的二維矩陣中。的計算中的串行代碼看起來像 void computeFF_cpu(float * nSamples, float * nFeatures, float ** data, float ** corr #pragma omp paral

4熱度

1回答

CUDA .ptx文件是否可移植？

我正在學習cudaDecodeD3D9 sample以瞭解CUDA是如何工作的，在編譯時它會從.cu文件生成.ptx文件。據我瞭解，這個.ptx文件到目前爲止是一箇中間表示，它將在任何特定的GPU中及時編譯。該示例使用類cudaModuleMgr通過cuModuleLoadDataEx加載此文件。的.ptx文件是文本格式的，我可以看到，在它的頂部是一堆我的機器上的硬編碼路徑，包括我的用戶文件夾，

2熱度

1回答

HTML/CSS檢測IE11無javascript

我一直在使用下面的技巧，使特定瀏覽器的HTML：   <div class= "not_ie">  </div> 這不會IE11工作。任何新的技巧使用？我可以使用javascript檢測到它： Detecting IE11 us

3熱度

2回答

F＃GPU編程vs KDB處理數據，最快的是什麼？

嗨，我想請問任何人的經驗是什麼是用F＃GPU（例如使用C Nivida GPU api類型提供程序）編程vs KDB處理數據來處理大量數據的最經濟有效的方法。我知道兩者都是完全不同的方法，但只希望在投資一種或兩種技術之前都曾從事過兩種工作的人的建議。對於GPU方面的事情，我打算使用單個表和2-3個其他表的簡單連接來使關係數據庫或NoSQL DB（如mongodb）枯燥工作。有沒有人知道兩種方

1熱度

1回答

nvidia-smi如何工作？

允許nvidia-smi獲取硬件級別詳細信息的內部操作是什麼？即使某些進程已經在GPU設備上運行並獲取了進程的使用細節，名稱和ID等，該工具仍然可以執行。是否可以在用戶級別開發這樣的工具？ NVML如何相關？

0熱度

1回答

gpuocelot是否支持CUDA設備中的動態內存分配？

我的算法（並行多面高斯消元）需要在CUDA內核中動態分配內存（樹構建）。有誰知道gpuocelot是否支持這樣的事情？據此：stackoverflow-link和CUDA編程指南我可以做這樣的事情。但使用gpuocelot時，我在運行時遇到錯誤。錯誤：當我打電話malloc()裏面的內核我得到這個錯誤： (2.000239) ExternalFunctionSet.cpp:371: Asse

0熱度

1回答

Cuda Kernel無法啓動

這是我的代碼。我有一個（x，y）對的數組。我想爲每個座標計算最遠的點。 #define GPUERRCHK(ans) { gpuAssert((ans), __FILE__, __LINE__); } inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true) { if (code !=

0熱度

1回答

錯誤CL_OUT_OF_RESOURCES而在主機內存中讀回數據，同時用原子功能的OpenCL內核

我想實現我的OpenCL內核的原子功能。我創建的多個線程並行地嘗試寫入單個內存位置。我希望他們在特定的代碼行上執行串行執行。我從來沒有使用原子功能。我發現很多博客和論壇類似的問題，我試圖一個解決方案，即。使用兩個不同的函數'acquire'和'release'來鎖定和解鎖信號量。我已經包含了必要的opencl擴展，這些都得到了我的設備（NVIDIA GeForce GTX 630M）的肯定支持。