gpu-programming

0熱度

4回答

我正在閱讀很多關於gpgpu的內容，我目前正在學習OpenGL。現在我必須自己編寫所有數學（或使用現有的第三方庫），我想到了使用gpu而不是cpu來創建自己的數學庫。（矩陣向量等）但我沒有找到任何利用GPU的3D數學庫。是否有特定的原因？也許CPU在這些任務上更好？

4熱度

3回答

CUDA Visual Studio 2010 Express構建錯誤

我想在64位Windows 7上使用Visual Studio 2010 Express在Windows上開始使用CUDA編程。它花了我一會兒設置環境，然後我寫了第一個程序，helloWorld.cu :) 目前，我用下面的程序工作： #include <stdio.h> __global__ void add(int a, int b, int *c){ *c = a + b;

0熱度

1回答

哪個更好？循環內核或循環內核的CUDA GPU

設備GeForce GTX 680 在程序中，我有很長的數組在內核中處理（約1 GB的整數）。根據需要，我的數組被分開按順序重疊成塊，並有一些重疊（塊之間的重疊爲k）。每個塊的固定大小（塊大小爲m）。現在，數組將依次分爲（0，m）（mk，（mk）+ m），....）按照上面的計算，我的程序中所需的塊數將大約爲（1GB/m）由於GPU中塊的總數量是有限的，我該如何有效地做到這一點？我應該從主機

4熱度

2回答

用於圖像處理的GPU編程

我正在開發一個旨在控制一個二聯類人機器人的項目。不幸的是，我們有一套非常有限的硬件資源（一個RB110 board and its mini PCI graphic card）。我正計劃將圖像處理任務從CPU移植到可能的圖形卡處理器，但之前從未完成...建議使用OpenCV，但似乎不可行，因爲我們的圖形卡處理器（Volari Z9s）不受框架支持。然後我在Linux Journal上找到了an i

0熱度

1回答

爲什麼多個GPU CUDA代碼失敗？

我有以下多GPU CUDA代碼爲我的第一次： int main(void) { int count; cudaGetDeviceCount(&count); float** gtt = new float*[count]; for (int i=0; i< count; i++) { cudaSetDevice(i); int j;

0熱度

1回答

用於3D複雜陣列的Fortran中的MPI FFTW

我需要使用MPI在Fortran中對3D數組進行FFT。我一直在尋找的FFTW網站，我也試圖尋找在線的例子，但我只能找到這段代碼： use, intrinsic :: iso_c_binding include 'fftw3-mpi.f03' integer(C_INTPTR_T), parameter :: L = ... integer(C_INTPTR_T),

4熱度

1回答

CUDA C矩陣乘法

EDITED與鏈接問題後的當前狀態對應。我目前正試圖在CUDA中重新實現基本的矩陣乘法，而我的代碼對於Square矩陣和尺寸爲8的倍數的矩形矩陣都可以正常工作，但它對於尺寸不是矩形矩陣似乎不起作用8. 以下的倍數是我的內核乘法功能： __global__ void matrixMultiply(float * A, float * B, float * C, int numARo

1熱度

1回答

問題與原子功能

編譯我試圖編譯這個OPENCL代碼： #pragma OPENCL EXTENSION cl_khr_local_int32_base_atomics : enable __kernel void nQueens(__global int * data, __global int * result, __local int * stack, __local int *stack_size, i

1熱度

1回答

對於不同的運行，以前的值保留在全局內存中用於CUDA GPU的內核參數

設備GeForce GTX 680 在我的程序中，使用CUDA Memcpy將值從主機複製到設備變量。我看得出來，以前的值被保留在程序的不同執行全局存儲器（運行可執行多次）代碼test.cu：首先運行： const test[]="overflowhappen"; cudaMalloc((void **) &test_d, sizeof(char)*strlen(test)); cuda

5熱度

2回答

cuda 5.0動態並行性錯誤：ptxas致命。未解決的外部函數「cudaLaunchDevice

我在Linux上使用特斯拉K20計算能力35 CUDA 5.具有一個單純的孩子內核調用它給出了一個編譯錯誤：Unresolved extern function cudaLaunchDevice 我的命令行的樣子： nvcc --compile -G -O0 -g -gencode arch=compute_35 , code=sm_35 -x cu -o fill.cu fill.o 我在l