問題
最近在Ubuntu上使用Nvidia GPU訓練模型的時候,沒有問題,過一會再訓練出現非常卡頓,使用nvidia-smi查看發現,顯示GPU的風扇和電源報錯:
解決方案
自動風扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風扇轉速不足使GPU過熱導致的。
首先開啟GPU的persistent mode,再設置風扇的功率,重啟即可生效。其中250代表的是風扇的最大功率限制,可以將其設置為最大,這樣過熱的時候風扇就會自動加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動風扇控制
此外,還可以將GPU風扇的手動風速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有gpu在xserver中的設置(不使用sudo可能無權限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機器上有多塊gpu,在第一步命令執行后,會在這個xorg.conf中出現多個DeviceSection,都依次執行第三步操作
重啟機器后,命令行執行nvidia-settings,會打開設置界面,在其中的會顯示所有GPU的設置選項,每個GPU控制選項下面都有一個Thermal settings,進入后打開enable GPU Fan Setting即可對風扇進行手動風速調整了。
-
NVIDIA
+關注
關注
14文章
5023瀏覽量
103263 -
gpu
+關注
關注
28文章
4753瀏覽量
129067
發布評論請先 登錄
相關推薦
評論