2014-09-26 151 views
3

在測試一個包含內存錯誤的CUDA時,我的屏幕被凍結了。重新啓動後,我無法再檢測到顯卡。我的代碼可能是物理損壞了卡嗎?CUDA代碼是否會損壞GPU?

這發生在Ubuntu 14.04下。我不知道卡的型號,因爲我無法檢測到它,但我記得它是一個相當新的卡。

+0

你能否嘗試重新安裝驅動程序並重新設置卡BIOS?也許聯繫NVIDIA支持。 – 2014-09-26 16:03:48

+1

拔下插頭,看看主板是否記得該卡。可能是一個BIOS的高壓問題,需要刷新。 – 2014-09-27 20:07:59

回答

3

感謝所有評論我解決了這個問題。

我將列出我進行的操作。我不確定它們是否都有效果,但最終問題解決了。

首先,我斷開顯卡並重新啓動,沒有它。之後我再次插入卡並重新啓動。我被扔到一個菜單,據說我正在低圖形模式下運行。我打開一個ttyCTRL + ALT +),並試圖重新安裝使用說明書here Nvidia的驅動程序。

它最初失敗,因爲新的驅動程序正在運行(我認爲這是整個問題的主要罪魁禍首)。

我按照這個link列入了黑名單。

綜上所述創建文件/ etc/modprobe.d/blacklist-nouveau.conf並添加:

blacklist nouveau 
blacklist lbm-nouveau 
options nouveau modeset=0 
alias nouveau off 
alias lbm-nouveau off 

然後我重新啓動。到那時我的屏幕開始正常工作,但我無法啓動桌面。我重新安裝了cuda驅動程序(有一些錯誤,但不是致命錯誤)。

然後我重新啓動,我的屏幕再次工作。

回答主要問題:我沒有通過測試CUDA代碼損壞顯卡。

0

我對GPU密集型代碼有同樣的問題,罪魁禍首是GPU沒有正確冷卻;在製造商用C2075(幾乎相同的GPU但主動散熱)替換了m2090之後,再也沒有問題了。在此之前,我們更換了MOBO和GPU,但沒有改進。

GPU沒有損壞,它只是進入保護模式,一旦冷卻,它就會再次正常工作。

+0

事件發生在幾個小時前卡仍然死了......我沒有做太多繁重的工作,而是試圖找到一個錯誤。你怎麼看? – eaponte 2014-09-26 15:42:11

+0

是否嘗試將電源從所有電源拔下半分鐘?這些問題通常需要完全重新啓動主機。 – damienfrancois 2014-09-28 09:26:26