nvvp

0熱度

1回答

Whenenevr我啓動了兩個應用程序，它們在出現啓動畫面後崩潰。出現一個小對話框，並顯示消息an error has occurred. see the log file null（我不知道在哪裏可以找到空文件）。 nsight控制檯錯誤消息 Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option MaxPermSize; suppo

1熱度

1回答

將CUDA nvprof輸出導出到Visual Profiler

我想從我的GPU應用程序中提取數據以檢查其限制。我必須使用nvprof，因爲應用程序在遠程服務器上運行，所以我應該創建一個文件以在本地導入Visual Profiler。我嘗試使用nvprof -o file_name <app> <params>和nvprof --analysis-metrics --output-profile file_name <app> <params>創建文件，但是當

0熱度

1回答

爲什麼連續推力排序和減少命令之間沒有GPU活動？

請參閱下面顯示的我CUDA代碼Nvidia的視覺探查會話兩個快照：從nvprof會話快照顯示推力::排序和推力::減少調用執行時間表強調了排序，並降低呼叫顯示拍攝的時間和其執行之間的差距你可以看到大約7差距0 us之間的兩個thrust::sort()通話，然後第一個thrust::reduce()和第二個thrust::sort()通話之間有很大差距。總之，在快照中可見大約300個這樣的間

0熱度

2回答

我可以在C源代碼級別上剖析OpenACC內核嗎？

我想用openacc和PGI 15.7編譯器加速我的代碼。我想在C源代碼級別上剖析我的代碼。我使用的是CUDA 7.0中的'nvvp'分析器。當我運行nvvp時，我可以使用'分析點擊'並獲得哪個延遲是我的代碼變慢的原因。（數據依賴性，條件分支和帶寬等）但是，我無法獲得基於行的分析，只能進行'內核'級分析。（例如main_300_gpu內核使用10s）。所以我有一些麻煩知道我必須在哪裏修

1熱度

1回答

CUDA內核不重疊

我有一個簡單的向量乘法內核，我正在執行2個流。但是當我在NVVP中進行配置時，內核似乎不會重疊。是否因爲每個內核執行利用GPU的％100，如果不是，原因可能是什麼？的源代碼： #include "common.h" #include <cstdlib> #include <stdio.h> #include <math.h> #include "cuda_runtime.h" #inc

1熱度

1回答

如何從nvprof或NVidia Visual Profiler的輸出中獲取定時值？

我使用nvprof來分析一些東西（包括CPU工作和GPU工作，即我使用nvprof標記等），並且我得到nvprof生成的二進制文件。我可以將它們導入到NVVP（NVidia Visual Profiler; Linux版本）中，並且稍加努力就可以將其保存到XML中。但是 ... XML不包含有關我的各種CPU何時執行的計時數據。它提到了它們的存在，但沒有更多。另外，XML的末尾在PDM標籤中包含

1熱度

1回答

配置文件調試或釋放cuda代碼？

我一直在分析nvprof and nvvp (5.5)的應用程序以優化它。不過，我得到像inst_replay_overhead，ipc或branch_efficiency，當我剖析調試（-G）等一些指標/事件完全不同的結果，併發布代碼的版本。所以我的問題是：哪個版本我應該個人資料？發行版或調試版？或者選擇取決於我在找什麼？我發現CUDA - Visual Profiler and Contr

1熱度

1回答

內核中的CUDA分析

是否有任何選項可用於分析CUDA內核？不是整體，而是其中的一部分。我有一些設備功能調用，我想測量他們的時間。是否有可以設置的標誌/事件/說明，然後在NVIDIA Visual Profiler中可以看到？或者我需要手動插入cudaEventCreate和類似的功能。

0熱度

1回答

nvvp和nsight的分析器給出了不同的結果？

我想嘗試gst_inst_128bit指令。在同一個程序中，nvvp會執行很多gst_inst_128bit命令。在nsight的分析器中，獲取4次gst_inst_32bit指令。他們應該是一個相同的程序。這種情況怎麼會發生？該實驗試圖在Linux，CUDA 5.0，GTX 580 該方案是僅來自一個陣列中的核函數將數據複製到另一：在主： cudaMalloc((void**)&dev

1熱度

1回答

DtoD和PtoP內存拷貝有什麼區別？

使用nvprof分析應用程序時，我發現了PtoP和DtoD memcpy。我不確定這兩者之間的區別。