Atlas800-9000服务器内存扩容后NPU驱动识别不到
问题描述
Atlas800-9000服务器在扩容内存后发现NPU驱动识别不到,服务器的操作系统为ubuntu20.04,服务器在扩容后进行了上下电的操作。
处理过程
1、检查NPU驱动以及芯片状态,执行npu-smi info上报模块初始化失败错误。
2、执行lspci | grep d801查看芯片是否在位,查询结果显示芯片都在位。
3. 执行uname -a查得当前操作系统内核版本为5.4.0-146
进入/boot/grub/grub.cfg 发现当前环境存在多个操作系统内核。
4、执行modinfo drv_pcie_host命令发现驱动对应的内核与当前内核不一致。
根因
该服务器操作系统存在多个内核版本,在客户扩容内存后进行重启时,操作系统会默认选择最新的内核版本,从而导致当前NPU驱动与最新的内核版本不一致,NPU无法被识别。
解决方案
1、将当前操作系统内核切换到NPU驱动对应的内核版本,并将此内核设置为默认启动项。
2、操作方法:切换到root用户后执行vim /etc/default/grub,在该文件下进行编辑,将GRUB_DEFAULT=0修改为NPU驱动对应的内核名称。
3、重新执行npu-smi info 命令发现驱动可以正常识别。
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/476.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论