考慮這3個微不足道的小內核。他們的註冊使用量是,比我預期的要高很多。爲什麼? 答: __global__ void Kernel_A()
{
//empty
}
對應PTX: ptxas info : Compiling entry function '_Z8Kernel_Av' for 'sm_20'
ptxas info : Function properties for _Z8K
介紹 在this question我們可以學習如何禁用L1緩存爲一個單個可變。 這裏是公認的答案: As mentioned above you can use inline PTX, here is an example: __device__ __inline__ double ld_gbl_cg(const double *addr) {
double return_value;