CNESA - SE_You的文章

SE_You 的文章

服务器

atlas 500跳过ies

问题描述正常情况下，Atlas500 ssh 的登录，是通过admin登录到IES，然后再通过develop 登录到开发者模式。取消省界某局点客户，通过admin登录atlas500 的时候，跳过IES，无法登录到IES界面。如客户反馈的下图：告警信息无告警，不能正常登录到develop模式，不能正常使用atlas500 命令系统。处理过程 1. 切换到root模式（采用develop的密码）， 2. 执行 usermod admin -s /usr/local/bin/clp ，（不切换root用户，无权限执行此命令） 3. 退出root用户，退出admin用户，重新admin登录，即可登录到ies，然后登录到develop模式。正常登录如下图：根因 admin用户登入后所使用的shell被更改或者丢失。解决方案采用usermod -s 修改admin用户登入后所使用的shell, 即执行usermod admin -s /usr/local/bin/clp ，重新登录建议与总结采用usermod -s 修改admin用户登入后所使用的shell, 即执行usermod admin -s /usr/local/bin/clp ，重新登录免责声明：本案例仅供参考不提供专业意见。

SE_You 2022-07-11

13 0 0
服务器

Atlas 500 硬盘无法识别

问题描述更新了费率后，存储设备丢失，mcu电压检测异常处理过程日志查看无硬盘信息日志记录有电源跌落告警根因电源线接触端子磨损导致电压跌落，硬盘无法正常工作解决方案更换电源线，问题解决

SE_You 2022-07-11

15 0 0
服务器

Atlas 500 修改密码提示：passwd: Authentication token manipulation error

问题描述 Atlas 500系统下修改root密码时提示：passwd: Authentication token manipulation error 告警信息处理过程 1.执行mount检查根分区是否只读，如果根分区为ro，则执行mount -o rw,remount / 尝试重新挂载根分区为可读写模式。 2.执行：lsattr /etc/passwd和lsattr /etc/shadow，查看passwd和shadow文件的权限，两个文件权限正常。若此处显示包含i权限，则需要去掉。 3.执行df -h 查看空间使用情况，发现根分区/dev/mmcblk0p3文件系统的使用率为100%，通过删除根分区文件系统内的部分临时文件，空余出一定的空间后修改密码成功。根因根分区文件系统空间占用率为100%导致修改密码失败。解决方案删除根分区内的部分临时文件，空余出一定的空间后修改密码成功。建议与总结若遇到linux系统修改密码提示passwd: Authentication token manipulation error的，可做如下尝试：（1）重新挂载根分区：mount -o rw,remount / ；（2）使用lsattr /etc/shadow和lsattr /etc/passwd查看shadow和passwd的权限，若显示： —-i——–e- /etc/shadow —-i——–e- /etc/passwd 则需要使用chattr -i /etc/shadow、chattr -i /etc/passwd 命令来去掉-i 的属性。（3）使用df -h 查看根分区是否被占满，若占满则需释放部分空间。

SE_You 2022-07-11

10 0 0
服务器

Atlas 500 异常重启现象

问题描述多台Atlas 500智能小站发生异常重启现象，影响现场业务运行。处理过程一线人员反馈现场3台设备出现异常重启现象，收集日志后，首先通过MCU日志确定系统重启的时间（MCU侧时间慢8小时，与OS日志对应时，加上8小时）；对应OS_Drivers下的kbox日志，系统重启时间与kbox记录时间吻合；查看重启时的kbox日志，都存在out_of_memory+0x210/0x530以及oom stack堆栈相关记录，meminfo中可用内存为0Kb，确认重启原因为内存耗尽；根据kbox日志，可确认内存溢出时的top 10进程，如下所示，其中红框标示的数据为重启时进程占用物理内存的数值，单位为pages，数据x4Kb便可计算出重启时进程占用内存的大小： xbull () ./xbull : 632146 *4Kb=2.41G java () /usr/jdk/bin/java : 77560*4Kb=0.3G mysqld ():49544 *4Kb=0.19G java () /usr/jdk/bin/java -Xms256M : 62186*4Kb=0.24G java () /usr/jdk/bin/java : 49718*4Kb=0.19G 经计算可知，以上用户的业务程序，占用了大量的物理内存（总内存4G），约3.4G；日志中total_top_10_rss=916805(pages)表示当前top10 进程总的内存使用页（pages），乘以4Kb可换算出已使用的内存，916805*4Kb=3.5G，而total_rss_all=942163(pages)表示系统可用总页数，942163*4Kb=3.6G，可以内存基本已占用完。另外两台设备kbox日志记录同样的问题，由此可确定，异常重启的原因是客户相关业务进程占用了内存过多导致系统内存不足，触发复位。根因用户运行的程序或者业务进程占用内存过大，剩余系统内存不够导致系统重启解决方案建议用户排查业务、分析内存占用率高的相关进程，降低内存消耗，修复内存泄漏问题免责声明：本案例仅供参考不提供专业意见。

SE_You 2022-07-11

18 0 0
服务器

Atlas 500 恢复web密码为默认的方法

问题描述 Atlas 500小站忘记web密码，但root可直接登录，恢复web密码为默认的方法解决方案 1、将附件中的压缩包下载后，解压， 2、将解压后的文件上传到Atlas 500 小站 3、给脚本添加执行权限，如下图示： 4、执行脚本，web密码及可恢复为默认密码，这时再登录web界面，重新修改密码及可。当恢复成默认密码后，如果在web对密码修改时，出现错误如下图，此时应该查询vi /etc/security/opasswd文件，将此文件清空及可。免责声明：本案例仅供参考不提供专业意见。

SE_You 2022-07-11

31 0 0
服务器

BIOS卡在启动选项按键提示界面

问题描述 BIOS卡在启动选项按键提示界面，如下图所示处理过程查看BIOS 串口日志（参见收集BIOS串口日志），搜索“ScanCode”，如果在没有外部按键输入情况下，找到多个Scancode，即有可能是串口、USB键盘、KVM键盘问题。根因串口设备异常。BIOS全打印日志记录大量“Scancode 0”按键输入，每一个Scancode都会发送一个中断给BIOS，BIOS的中断处理程序的优先级高于一般的BIOS初始化代码，当串口设备异常时，BIOS一直反复进入BIOS中断，所以BIOS卡在热键响应界面。解决方案 1.依次移除物理串口、物理键盘，重启KVM键鼠，检查问题是否解决。未解决进行步骤二 2.通过SmartKit关闭Console Serial Redirect，检查问题是否解决。（注意：此操作会影响Console Serail Redirect功能，SOL下不能进入BIOS配置菜单；SOL下看不到POST阶段各设备Option Rom打印的提示）如还未解决进行步骤三 3.更换主板

SE_You 2022-07-09

3 0 0
服务器

A800-3000 SP331无法使用PXE功能

问题描述配置信息：Taishan 2280 + Atlas 300 + SP331网卡使用SP331网卡的PXE功能安装操作系统，在BIOS下无法发现SP331网卡的MAC地址。处理过程现网使用的BIOS版本为1.68，在BIOS的版本说明书中有写BIOS1.69及以后的版本才支持PXE功能，如下图示，建议客户升级BIOS版本为V1.69（BIOS版本说明书）解决方案升级BIOS版本至V169以上解决

SE_You 2022-07-04

5 0 0
服务器

Atlas800-9000服务器内存扩容后NPU驱动识别不到

问题描述 Atlas800-9000服务器在扩容内存后发现NPU驱动识别不到，服务器的操作系统为ubuntu20.04，服务器在扩容后进行了上下电的操作。处理过程 1、检查NPU驱动以及芯片状态，执行npu-smi info上报模块初始化失败错误。 2、执行lspci | grep d801查看芯片是否在位，查询结果显示芯片都在位。 3. 执行uname -a查得当前操作系统内核版本为5.4.0-146 进入/boot/grub/grub.cfg 发现当前环境存在多个操作系统内核。 4、执行modinfo drv_pcie_host命令发现驱动对应的内核与当前内核不一致。根因该服务器操作系统存在多个内核版本，在客户扩容内存后进行重启时，操作系统会默认选择最新的内核版本，从而导致当前NPU驱动与最新的内核版本不一致，NPU无法被识别。解决方案 1、将当前操作系统内核切换到NPU驱动对应的内核版本，并将此内核设置为默认启动项。 2、操作方法：切换到root用户后执行vim /etc/default/grub，在该文件下进行编辑，将GRUB_DEFAULT=0修改为NPU驱动对应的内核名称。 3、重新执行npu-smi info 命令发现驱动可以正常识别。免责声明：本案例仅供参考不提供专业意见。

SE_You 2022-07-02

24 0 0
云&虚拟化

HCS651查看安全组关联的云主机列表

问题描述 ManageOne8.1.0.SPC2，GR解耦场景，从Region为HCS651TypeI环境，客户要查看某资源集下面的安全组关联的云主机列表。解决方案首先在SC界面，选择相应的资源集后，某个安全组点进去以后发现并没有安全组关联的云主机列表。记录下安全组的ID，然后登录级联层控制节点后台，执行neutron port-list --security_groups=安全组ID ，得到虚拟机的IP地址，根据IP地址再找到虚拟机名称免责声明：本案例仅供参考不提供专业意见。

SE_You 2022-06-26

5 0 0
云&虚拟化

HCS821部署PBH服务安装应用发布软件失败

问题描述 HCS821部署PBH云服务时，PBH工部安装应用发布软件失败时如下详情截图告警信息处理过程 2.查看报错日志，如果看到为ping某OM_SERVICE段地址不通时且查看第三部创建虚拟机工部成功的日志里也有报错信息为”找不到某某镜像文件“”关键字包名“can't fond Public-CAD-EulerOS-Base Template-2.9.8" 3.根因为第三部创建PBH虚拟机工部没有真正将虚拟机创建安装成功，缺少软件包，所以导致第四部工部失败 4.下载Public-CAD-EulerOS-Base Template-2.9.8上传到HCC工部的/home/pkg目录下 5.将第三部工部HCC后台设置为失败，重试第三部和第四部工部 6.登录HCC后台以root身份执行sh /opt/rootscripts/debug-tools/retry_step.sh set -i 工部ID,然后界面重试工部。根因 HCC turnkey工具缺少脚本，在部署前检查软件包和校验包时不会检查该软件包解决方案 2.查看报错日志，如果看到为ping某OM_SERVICE段地址不通时且查看第三部创建虚拟机工部成功的日志里也有报错信息为”找不到某某镜像文件“”关键字包名“can't fond Public-CAD-EulerOS-Base Template-2.9.8" 3.根因为第三部创建PBH虚拟机工部没有真正将虚拟机创建安装成功，缺少软件包，所以导致第四部工部失败 4.下载Public-CAD-EulerOS-Base Template-2.9.8上传到HCC工部的/home/pkg目录下 5.将第三部工部HCC后台设置为失败，重试第三部和第四部工部 6.登录HCC后台以root身份执行sh /opt/rootscripts/debug-tools/retry_step.sh set -i 工部ID,然后界面重试工部。免责声明：本案例仅供参考不提供专业意见。

SE_You 2022-06-19

3 0 0