帮助文档
专业提供香港服务器、香港云服务器、香港高防服务器租用、香港云主机、台湾服务器、美国服务器、美国云服务器vps租用、韩国高防服务器租用、新加坡服务器、日本服务器租用 一站式全球网络解决方案提供商!专业运营维护IDC数据中心,提供高质量的服务器托管,服务器机房租用,服务器机柜租用,IDC机房机柜租用等服务,稳定、安全、高性能的云端计算服务,实时满足您的多样性业务需求。 香港大带宽稳定可靠,高级工程师提供基于服务器硬件、操作系统、网络、应用环境、安全的免费技术支持。
服务器资讯 / 香港服务器租用 / 香港VPS租用 / 香港云服务器 / 美国服务器租用 / 台湾服务器租用 / 日本服务器租用 / 官方公告 / 帮助文档
NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000-02-00.0- Unknown Error
发布时间:2024-03-09 20:06:49   分类:帮助文档
NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error




报错
实验室去年到今年断了几次电,然后服务器上的2080Ti一直就感觉有点小毛病。属于是被折磨了几个月了。 然后前两周断电后,显卡就基本上完全用不了了,经常服务器开机都会失败。并且就算服务器开机成功过后,没有几分钟显卡就会自己关掉
刚刚开机一切都很正常 但是没过几分钟显卡就会突然用不了了:
nvidia-smi
Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

然后查看是不是有显卡
lspci| grep -i nvidia
02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)

很奇怪啊,显卡是在的,但是rev ff就是显卡关闭了。 重启多次过后一直都是这样。
可能的原因
在网上疯狂找,觉得可能存在以下问题
电源问题也可能是非持久模式导致的频繁初始化,利用命令sudo nvidia-smi -pm 1即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local里面,以自动执行。驱动问题GPU过热,风扇,机箱散热问题还有一个,如链接。但是我看不懂是怎么回事。
我的问题
我是服务器的电源线在前几次的断电中出现了问题,所以会出现开机的问题,并且显卡毕竟是大功率电器,而且好像有保护机制,电源有问题就自己断电了。 最后换了一根电源线就解决问题了。
如何排查问题的
电源问题
这个太麻烦,而且一般不好解决也不好发现,所以先不管
非持久模式导致的频繁初始化
这个方案执行最简单,所以第一个试一下。 然后,使用了sudo nvidia-smi -pm 1没有用,写到/etc/rc.local里面,也没有用。
驱动问题
退diver版本,更新版本,都没有用 更新cuda也没有用。 个人感觉这个报错一般不会是驱动的问题
GPU过热,风扇,机箱散热问题
开机运行就几分钟,感觉也不太像过热的问题。但是还是抬了个风扇到机房对着吹,最后发现确实不是这个问题。
最后解决
最后实在是受不了了,想着把显卡卸下来。然后先是把服务器抬到实验室,给老板表演一下显卡自己掉线,结果等了半天一点问题都没有,非常平稳。 然后灰溜溜地把服务器弄回去,结果插电源的时候,pa地一下电源的位置闪了一下火花。突然才想到电源的问题还没有排查。。。 然后随便换了个根电源线,现在一两天了,都没有出问题。。。




香港云服务器租用推荐
服务器租用资讯
·租用美国服务器配置
·怎样使用美国服务器(新的服务器怎样使用)
·怎么联系美国服务器(本服务器在美国受到法律)
·云服务器美国电影(美国高防云服务器)
·源服务器在美国(美国服务器ip)
·邮箱搭建美国服务器(群晖搭建邮箱服务器)
·微信美国服务器(微信小程序要服务器吗)
·受美国服务器保护(此服务器受美国保护)
·手机vpn美国服务器
服务器租用推荐
·美国服务器租用
·台湾服务器租用
·香港云服务器租用
·香港裸金属服务器
·香港高防服务器租用
·香港服务器租用特价