Atlas800-9000服务器内存扩容后NPU驱动识别不到

问题描述

Atlas800-9000服务器在扩容内存后发现NPU驱动识别不到,服务器的操作系统为ubuntu20.04,服务器在扩容后进行了上下电的操作。

处理过程

1、检查NPU驱动以及芯片状态,执行npu-smi info上报模块初始化失败错误。

1.png

2、执行lspci | grep d801查看芯片是否在位,查询结果显示芯片都在位。

2.png

3. 执行uname -a查得当前操作系统内核版本为5.4.0-146

3.png

进入/boot/grub/grub.cfg 发现当前环境存在多个操作系统内核。

4.png

4、执行modinfo drv_pcie_host命令发现驱动对应的内核与当前内核不一致。

 

根因

该服务器操作系统存在多个内核版本,在客户扩容内存后进行重启时,操作系统会默认选择最新的内核版本,从而导致当前NPU驱动与最新的内核版本不一致,NPU无法被识别。

解决方案

1、将当前操作系统内核切换到NPU驱动对应的内核版本,并将此内核设置为默认启动项。

2、操作方法:切换到root用户后执行vim /etc/default/grub,在该文件下进行编辑,将GRUB_DEFAULT=0修改为NPU驱动对应的内核名称。

5.png

3、重新执行npu-smi info 命令发现驱动可以正常识别。

6.png

免责声明:本案例仅供参考不提供专业意见。

版权声明:
作者:SE_You
链接:https://www.cnesa.cn/476.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。

THE END
打赏
海报
Atlas800-9000服务器内存扩容后NPU驱动识别不到
问题描述 Atlas800-9000服务器在扩容内存后发现NPU驱动识别不到,服务器的操作系统为ubuntu20.04,服务器在扩容后进行了上下电的操作。 处理过程 1、检……
<<上一篇
下一篇>>