CUDA 4.0比3.2更快嗎?
我對添加CUDA 4.0不感興趣,而是知道如果我使用CUDA 4.0,內存分配和傳輸速度會更快。
感謝CUDA 4.0 vs 3.2
回答
內存分配和轉移更多的依賴(如果不是全部)的硬件功能(更高效的流水線,高速緩存的大小),而不是CUDA的版本。
是的,我已經跑〜10%的速度曾經是相當可觀的應用程序切換我從3.2到4.0。這是沒有任何代碼更改以利用新功能。
我也有一個GTX480,如果有任何問題。
注意,性能提升可能是由於這樣的事實,我使用的開發驅動程序的新版本(升級時自動安裝)。我認爲nVidia很可能會像CUDA這樣的重磅遊戲一樣對CUDA性能進行調整。
即使在對CUDA 3.2,您可以安裝CUDA 4.0驅動程序(270.x) - 驅動程序是向後兼容的。所以除了重新編譯應用程序之外,您可以測試它。確實存在影響運行時性能的驅動程序級優化。
雖然通常已經在Linux上工作得很好,我已經注意到MacOSX上一些麻煩。
答案是肯定的,因爲CUDA 4.0降低系統內存佔用和CPU的memcpy()開銷
也許愚蠢的問題,但獨立於設備的計算能力?也就是說,對於所有的硬件產品? – Bart 2011-05-07 19:42:02
內存分配的性能主要取決於主機平臺(因爲驅動程序的型號而異)和驅動程序的實現。對於大量的設備內存,分配性能不可能因CUDA版本而異;對於較小的金額(比如小於128K),驅動程序子分配器中的策略更改可能會影響性能。
對於固定的內存,CUDA 4.0是一個特例,因爲它引入了UVA能力的系統中的一些重大的政策變化。首先,在初始化時,驅動程序會進行一些巨大的虛擬地址預留。其次,所有固定內存都是可移植的,因此必須映射到系統中的每個GPU。
性能的PCI Express轉移的主要是平臺的神器,而且通常沒有太多的開發者能夠做到控制它。 (對於小型CUDA memcpy,驅動程序開銷可能因CUDA版本而異。)一個問題是,在具有多個I/O集線器的系統上,非本地DMA訪問遍及HT/QPI鏈接,因此速度要慢得多。如果您的目標是這樣的系統,則使用NUMA API將內存分配(和線程)引導到GPU所插入的同一CPU上。
- 1. CUDA 4.0運行時問題
- 2. Upgrade Rails 3.2 to 4.0
- 3. OpenGL Shader vs CUDA
- 4. cutil.h CUDA 4.0中的CUT_SAFE_CALL
- 5. easy_install-3.2.exe vs easy_install.exe?
- 6. Adobe Flex 4.0 vs Silverlight 4.0
- 7. float vs int in cuda
- 8. x64 vs x86 for CUDA
- 9. Namedpipe:C++ vs .NET 4.0
- 10. 3.2 OpenCV的支持CUDA蟒蛇
- 11. KO 3.2 - 庫vs幫手
- 12. XCode GCC-4.0 vs 4.2
- 13. ASP.NET 4.0 vs ASP.NET MVC
- 14. iphone sdk 3.2到4.0筆尖編輯
- 15. iOS 3.2/4.0上的多個MPMoviePlayerControllers
- 16. 升級彈簧從3.2到4.0
- 17. YDL.net的Eclipse CUDA插件已準備好用於CUDA 4.0
- 18. Visual Studio 2010的CUDA 4.0鏈接錯誤
- 19. 結構問題,CUDA C/C++和VS 2008
- 20. #define和CUDA
- 21. Android 4.0 vs 4.2 API差異
- 22. CLR 2.0 vs 4.0性能?
- 23. 的Python 3.2空閒VS終端
- 24. Nvidia Tesla vs 480用於CUDA編程
- 25. CUDA中的全局vs共享內存
- 26. CUDA理論帶寬vs有效帶寬
- 27. 如何用CUDA處理OpenCV 3.2的圖像?
- 28. 使用VS2008的CUDA 3.2中的仿真模式
- 29. 使用C#4.0:我們是否需要VS 2010或.NET Framework 4.0
- 30. LINQ擴展SelectMany in 3.5 vs 4.0?
本聲明(7票和全部)相當具有誤導性。存儲器分配的速度對平臺有很大的依賴性;在具有多個GPU的64位具有UVA功能的系統上,CUDA 4.0上的固定分配將花費更長的時間,因爲它們可自動移植(即映射到所有GPU)。 – ArchaeaSoftware 2011-09-24 17:53:08
@ArchaeaSoftware您是否認爲CUDA 4.0在上述設置*下生成的代碼效率低於CUDA 3.2 *?如果是這樣,我會更新;如果沒有,那麼這就是我的答案已經在說... – 2011-09-25 09:22:06
我的評論涉及內存分配而不是傳輸性能。內存分配性能更多地取決於主機平臺和CUDA實現的「硬件功能(更高效的管道,緩存大小)」。由於CUDA 4.0將可移植固定內存設置爲支持UVA的系統的默認設置,因此在多GPU系統上分配固定內存絕對速度較慢。 – ArchaeaSoftware 2011-09-26 13:19:46