系统:ubuntu 22.04
今天在本机 gpu 上跑一个模型,然后待机(suspend)恢复后跑不了了。pytorch 报错
UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)
然后在 pytorch 论坛上找到 解答
结论是 ubuntu 的 suspend 模式和 nvidia 驱动间的问题。 命令行运行
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm
重新加载 nvm 模块。 如果还不能解决,只能重启机器。