nvvp

    0熱度

    1回答

    Whenenevr我啓動了兩個應用程序,它們在出現啓動畫面後崩潰。出現一個小對話框,並顯示消息an error has occurred. see the log file null(我不知道在哪裏可以找到空文件)。 nsight控制檯錯誤消息 Java HotSpot(TM) 64-Bit Server VM warning: Ignoring option MaxPermSize; suppo

    1熱度

    1回答

    我想從我的GPU應用程序中提取數據以檢查其限制。我必須使用nvprof,因爲應用程序在遠程服務器上運行,所以我應該創建一個文件以在本地導入Visual Profiler。我嘗試使用nvprof -o file_name <app> <params>和nvprof --analysis-metrics --output-profile file_name <app> <params>創建文件,但是當

    0熱度

    1回答

    請參閱下面顯示的我CUDA代碼Nvidia的視覺探查會話兩個快照: 從nvprof會話快照顯示推力::排序和推力::減少調用執行時間表 強調了排序,並降低呼叫顯示拍攝的時間和其執行之間的差距 你可以看到大約7差距0 us之間的兩個thrust::sort()通話,然後第一個thrust::reduce()和第二個thrust::sort()通話之間有很大差距。總之,在快照中可見大約300個這樣的間

    0熱度

    2回答

    我想用openacc和PGI 15.7編譯器加速我的代碼。 我想在C源代碼級別上剖析我的代碼。 我使用的是CUDA 7.0中的'nvvp'分析器。當我運行nvvp時,我可以使用'分析點擊'並獲得哪個延遲是我的代碼變慢的原因。 (數據依賴性,條件分支和帶寬等) 但是,我無法獲得基於行的分析,只能進行'內核'級分析。 (例如main_300_gpu內核使用10s)。 所以我有一些麻煩知道我必須在哪裏修

    1熱度

    1回答

    我有一個簡單的向量乘法內核,我正在執行2個流。但是當我在NVVP中進行配置時,內核似乎不會重疊。是否因爲每個內核執行利用GPU的%100,如果不是,原因可能是什麼? 的源代碼: #include "common.h" #include <cstdlib> #include <stdio.h> #include <math.h> #include "cuda_runtime.h" #inc

    1熱度

    1回答

    我使用nvprof來分析一些東西(包括CPU工作和GPU工作,即我使用nvprof標記等),並且我得到nvprof生成的二進制文件。我可以將它們導入到NVVP(NVidia Visual Profiler; Linux版本)中,並且稍加努力就可以將其保存到XML中。 但是 ... XML不包含有關我的各種CPU何時執行的計時數據。它提到了它們的存在,但沒有更多。另外,XML的末尾在PDM標籤中包含

    1熱度

    1回答

    我一直在分析nvprof and nvvp (5.5)的應用程序以優化它。不過,我得到像inst_replay_overhead,ipc或branch_efficiency,當我剖析調試(-G)等一些指標/事件完全不同的結果,併發布代碼的版本。 所以我的問題是:哪個版本我應該個人資料?發行版或調試版?或者選擇取決於我在找什麼? 我發現CUDA - Visual Profiler and Contr

    1熱度

    1回答

    是否有任何選項可用於分析CUDA內核?不是整體,而是其中的一部分。我有一些設備功能調用,我想測量他們的時間。是否有可以設置的標誌/事件/說明,然後在NVIDIA Visual Profiler中可以看到?或者我需要手動插入cudaEventCreate和類似的功能。

    0熱度

    1回答

    我想嘗試gst_inst_128bit指令。 在同一個程序中,nvvp會執行很多gst_inst_128bit命令。 在nsight的分析器中,獲取4次gst_inst_32bit指令。 他們應該是一個相同的程序。這種情況怎麼會發生? 該實驗試圖在Linux,CUDA 5.0,GTX 580 該方案是僅來自一個陣列中的核函數將數據複製到另一: 在主: cudaMalloc((void**)&dev

    1熱度

    1回答

    使用nvprof分析應用程序時,我發現了PtoP和DtoD memcpy。我不確定這兩者之間的區別。