wordpress开启多站点好处,深圳网站建设推广方案,上海有名的猎头公司,网站怎么吸引用户深度学习运行代码直接中断 文章目录 深度学习运行代码直接中断问题描述设备信息问题补充解决思路问题发现及正确解决思路新问题出现最终问题#xff1a;ubuntu系统#xff0c;4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面问题记录 问题描述
运行深度学习代码…深度学习运行代码直接中断 文章目录 深度学习运行代码直接中断问题描述设备信息问题补充解决思路问题发现及正确解决思路新问题出现最终问题ubuntu系统4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面问题记录 问题描述
运行深度学习代码然后直接中断就是停止不运行显卡也停下来没有任何报错提示。不是在固定的Epoch发生的像是随机的。中断出现的epoch不确定时而运行1-2个小时中断时而运行数10个小时再发生中断。 设备信息
硬件409024G电竞判客i9-14900KDDR5 系统Ubuntu22.04.3 深度学习环境Pytorch112cuda12.0英伟达驱动535.183.01; 代码计算机视觉相关的代码相同能够在其它服务器上运行应该不是代码的问题。 运行方式使用nohup后台运行输出的内容会用tqdm包裹。 问题补充
偶尔出现的硬件问题 服务器的所有外接设备失效比如网线、鼠标键盘插进去都没有什么反应需要重启。 解决思路 以下是我排查过的问题和思路并没有发现问题所在 已排查的错误
显卡、内存等进行压力测试并没有报任何错误主机盖打开增加散热能力重装系统n次重装之后一般能解决但是过一段时间又出现最近又重装了ubuntu22.04.3第一次运行就发生了中断限制cpu功率没办法解决num_works设为0仍然出现该问题pin_memory关闭还是存在该问题环境不兼容cuda改成11.8还是有问题Pytorch环境倒是没有尝试用其它的感觉不是这个问题吧Pytorch从1.12换成2.0.0代码运行了12小时后中断batch_size调小显存只占用17G左右还是会中断不使用nohup后台运行仍然运行一会后会中断正在尝试将tqdm版本切换与另外一台服务器的相同版本代码还是会中断每一步主要的程序使用print输出用于定位问题所在。 问题发现及正确解决思路 代码在一台服务器上能够正常运行在4090上运行异常代码中断不报错。 因此以后当大家第一时间遇见这个问题的时候就应该主动去查看系统的运行日志定位代码停止运行时刻对应的日志。 1输出系统日志然后查看代码中断时间的日志记录
# journalctl输出系统日志后面是将输出重定位的journal.log文件
journalctl journal.log2查看系统对应的日志记录 7月 25 12:54:04 4090 kernel: show_signal_msg: 50 callbacks suppressed 7月 25 12:54:04 4090 kernel: yida_24-0725-09[1030438]: segfault at 8 ip 000061cc54bfdefa sp 00007fff10053f90 error 4 in python3.9[61cc54a89000223000] likely on CPU 7 (core 12, socket 0) 7月 25 12:54:04 4090 kernel: Code: 04 24 4c 8d 15 a7 e8 19 00 41 89 7e 68 49 83 c4 02 0f b6 d0 0f b6 cc 49 89 d0 41 89 c9 41 ff 24 d2 4c 8b 7d f8 44 89 4c 24 20 49 8b 47 08 4c 89 ff ff 90 e0 00 00 00 4c 63 4c 24 20 48 85 c0 0f (3) 定位问题出现的原因 通过baidu发现问题出现的潜在原因发现是底层的计算错误。因此我去比对2台服务器的Python版本发现正常运行代码的一台服务器gcc是11.x另外异常的一台服务器是gcc7.x。
(4) 解决问题 最终我通过新建Python环境并更新gcc发现能够解决该中断问题
(5) 问题由来 问题是由于安装较为老旧的miniconda其中Python3.9的gcc是7.x导致了这个底层的问题和计算bug。终于TMD解决这“悄无声息”的问题哈哈哈哈 新问题出现
虽然代码不会中断了但是代码的运行偶尔会让系统崩溃又尝试了多种问题均无法解决该问题。无奈只能重装升级ubuntu23.04成功解决系统崩溃的问题这ubuntu22.04.3真的是服了 最终问题ubuntu系统4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面
查找到一个教程似乎能够解决该问题将发起最终的冲刺解决全部问题。 问题记录
2024年08月01日21:02:23完成bug的记录及问题解决思路感激CSDN豪俊的帮助及引导下次更新将解决安装英伟达驱动无法开机进入桌面的问题。