服务器
  • iBMC硬盘告警异常问题解决案例

    问题描述 客户在系统下电的情况下将配置在RAID组里硬盘拔出以后,在上电以后将硬盘插入,在整个过程中iBMC都没有告警。 告警信息 客户在系统下电的情况下将配置在RAID组里硬盘拔出以后,在上电以后将硬盘插入,在整个过程中iBMC都没有告警。 处理过程 (1)在系统Power OFF 的情况下拔出RAID组中的硬盘,通过前置面板的电源键对系统上电,在RAID卡完成初始化之前插入硬盘,查看iBMC告警和事件日志。 (2)在iBMC没有硬盘相关告警,硬盘处于RAID组重构过程中。 (3)在系统Power OFF 的情况下拔出RAID组中的硬盘,通过前置面板的电源键对系统上电,在RAID卡完成初始化以后插入硬盘,查看iBMC告警和事件日志。 (4)在iBMC中有“In Failed Array”告警。 根因 通过上述对照实验可以发现,只有在RAID卡完成初始化以后才能检测到RAID组中有硬盘丢失,iBMC中才会显示相应的告警。如果下电状态下拔出的RAID组硬盘在上电以后并且RAID卡尚未完成初始化时插入就会出现RAID卡检测不到RAID组丢失硬盘的情况,从而iBMC也没有相关的告警。 解决方案 RAID卡只有在完成初始化以后才能检测到RAID组中有硬盘丢失,iBMC中才会显示相应的告警。如果下电状态下拔出的RAID组硬盘在上电以后,RAID卡尚未完成初始化时插入就会出现RAID卡检测不到RAID组丢失硬盘的情况,从而iBMC也没有相关的告警。 建议与总结 (1)对于RAID组里的硬盘:只有在RAID卡完成初始化以后拔出RAID组里的硬盘,RAID卡才能检测到RAID组中有硬盘丢失,iBMC中才会显示相应的告警。 (2)对于未配置RAID组的硬盘:硬盘拔出时iBMC无告警。   免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2022-12-18
    15 0 0
  • 如何设置iBMC用户只有收集日志的权限

    问题描述 客户咨询新增一个ibmc用户,限制其只有收集日志的最小权限。 解决方案 1.打开ibmc网址 2. 选择Configuration->local users 3. 新增一个用户,角色选择“Custom Role1” 4. 设置Custom Role1只有Security Mamt 和 Query权限。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2022-11-18
    13 0 0
  • MindStudio SSH连接Atlas500小站失败,报错Algorithm negotiation fail

    问题描述 1)在MindStudio上,打开SSH Configurations页面,输入Atlas500的连接信息,点击Test Connection按钮后,弹框提示“Can’t connect to remote host!”; 2)打开MindStudio的后台日志文件idea.log,发现一条警告级别的打印“Algorithm negotiation fail”; 3)使用MobaXterm工具可以通过SSH成功连上Atlas500 处理过程 1)使用MobaXterm等SSH工具登录Atlas500后台,切换至root用户; 2)执行命令service sshd status,可以看到有报错信息“Unable to negotiate with X.X.X.X port 57625: no matching host key type found. Their offer: ssh-rsa,ssh-dss,ecdsa-sha2-nistp256,ecdsa-sha2-nistp384,ecdsa-sha2-nistp521 [preauth]”。说明SSH客户端(即MindStudio)使用了ssh-rsa,ssh-dss,ecdsa-sha2-nistp256,ecdsa-sha2-nistp384,ecdsa-sha2-nistp521加密算法,但是服务端sshd没有配置支持这些算法。 3)打开/etc/ssh/sshd_config文件,找到HostKeyAlgorithms和PubkeyAcceptedKeyTypes配置,如下: 发现确实没有支持“ssh-rsa,ssh-dss,ecdsa-sha2-nistp256,ecdsa-sha2-nistp384,ecdsa-sha2-nistp521”,从而导致协商失败 解决方案 登录Atlas500小站后台,切换至root用户,打开/etc/ssh/sshd_config文件,在HostKeyAlgorithms和PubkeyAcceptedKeyTypes配置项增加ssh-rsa,如下: 1 HostKeyAlgorithms ssh-ed25519,ssh-ed25519-cert-v01@openssh.com,rsa-sha2-256,rsa-sha2-512,ssh-rsa 2 PubkeyAcceptedKeyTypes ssh-ed25519,ssh-ed25519-cert-v01@openssh.com,rsa-sha2-256,rsa-sha2-512,ssh-rsa 保存后,执行service sshd restart重启sshd服务即可。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2022-10-25
    7 0 0
  • RAID卡自检界面提示F/W is in Fault State

    问题描述 RAID卡自检界面提示F/W is in Fault State, 如下图所示 处理过程 收集日志查看RAID卡版本5.140.00 解决方案 raid卡固件版本问题导致FW告警,参考raid卡固件版本说明书: TFM模块(管理超级电容和掉电保护的程序)访问异常,RAID卡代码运行异常,导致RAID卡FW报错,异常复位。 建议与总结 升级raid卡固件版本到5.140.00-3515及以上

    SE_Meng 2022-10-25
    94 0 0
  • OS上硬盘有IO报错

    问题描述 A800-3010服务器已安装CentOS 7.5,使用parted -s devnvme0n1 mklabel gpt 命令创建分区时报message错误。报错如下图   处理过程 安装hioadm工具,工具下载地址:https://support.huawei.com/enterprise/zh/software/251983097-ESW2000297405 执行命令:hioadmin info -d nvme0 查询nvme信息,结果如下图: 格式是512+8 type 3 separate 模式 ,此模式开了DIF,有数据保护无法被OS写入。 执行:hioadm format -d nvme0 -t 0 格式化成512+0的普通硬盘正常安装。 相关说明参考:https://support.huawei.com/enterprise/zh/doc/EDOC1100030815/c6f5feb6  

    SE_Meng 2022-10-25
    14 0 0
  • 在A500-3000WEB界面无网管注册功能

    问题描述 客户反馈在A500-3000无网管注册功能,当前版本为20.02.03.020   处理过程 当前版本无此功能选项,建议客户升到20.3.0的版本,特别注意对于老版本(20.2.xx及以下版本)需要进行多次升级才能升级到最新版本。20.2.xx及以下版本需要先升级到20.3.0版本;再由20.3.0版本升级到21.0.4.9版本;21.0.4.9版本可直接升级到21.0.4.9之后的任意版本。具体的版本升级和回退约束请参考各个版本的升级指导书。 根因 版本太低 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2022-10-12
    14 0 0
  • Atlas 500Web界面NPU告警,JPEGD PROC失败

    问题描述 Atlas500Web界面出现NPU告警,告警名称为JPEGD PROC失败。 告警信息 处理过程 结合页面告警现象及一线收集的日志,查看到SNAP日志里面有0x000E001E的告警,在告警处理的相关文档中可以看到对应的具体告警信息如下: 通过日志进一步查看(日志路径为NPU/var/dlog),将dlog下面的device和host日志解密之后,可以看到硬件解码失败,一行都没有解码成功。 用户输入的jpeg文件头有问题。 根因 界面NPU的告警是用户输入的jpeg文件头不符合规范导致失败。 解决方案 输入符合规范的jpeg文件,告警便会消失。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2022-10-12
    6 0 0
  • Atlas500智能小站硬盘访问阻塞

    问题描述 电压跌落导致硬盘访问阻塞 主要表现:Atlas500智能小站的输入电压降低,无法满足硬盘的工作电压,直观表现为硬盘故障、无法访问;Web界面可能上报的告警为:MCU电压检测异常、M.2访问阻塞、存储设备丢失、存储设备分区丢失、存储设备挂载失败、M.2不在位等。 硬盘本身或者链路故障 主要表现:系统无法识别硬盘,Web界面可能上报告警:M.2访问阻塞、存储设备丢失、存储设备分区丢失、存储设备挂载失败、M.2不在位等。 处理过程 1:解压收集的日志压缩包,在路径\log\MCU\tmp\mcu_log下,查看error_log_0_XXX.log,看日志信息关键词“sensor(2)(14)”,其中sensor(2)指的是电压,后面14是传感器编号,对应为12V;若存在如下频繁打印(10次以上),可确认为电压跌落导致硬盘无法访问。 2: 排查方向:执行ls /sys/block/ -all命令,如果回显中存在红框中标注的两个参数值,表示系统可以识别硬盘,否则表示系统无法识别硬盘,硬盘本身故障或者链路故障。 解决方案 1: 处理方法:更换告警设备的电源线,或只更换线缆两端的绿色连接器(同时要检查现场环境,对Atlas 500智能小站、电源盒进行加固,并进行附件的点胶操作)。   2:处理方法:检查硬盘与Atlas 500 智能小站是否连接正常,并重新插拔;若插拔后仍故障,则更换硬盘。

    SE_Meng 2022-10-12
    23 0 0
  • FAQ-9008 BMC无法支持过快插拔连续多张PCIE卡

    问题描述 在上电情况下逐一按下9008计算框BIOC的所有PCIE卡热插拔按钮,然后逐一拔出所有的PCIE卡,然后迅速的插入后拔出的卡,等所有PCIE卡重新上电后,查看WEB发现有PCIE卡未刷新信息 解决方案 由于当前BMC采用轮询方式串行对所有PCIE卡信息在位信息进行获取,当获取到一张卡由在位变成不在位后,BMC上层APP会通知框架对当前卡进行卸载处理,每张卡卸载都需要时间,当后拔的卡又新插入新卡时候,由于BMC还在处理前面拔出的卡,所以当扫描到后面的卡时候该卡已经从不在位变成了在位,导致BMC未识别到该卡在位发生变化,未重新加载当前卡。 由于BMC识别过慢导致卡未识别到,只影响BMC对于卡的识别,不影响带内OS使用该卡 建议在更换多张卡的情况下保留一定的时间间隔,使得BMC能够卸载掉前面拔出的卡,然后加载正确的卡。 免责声明:本案例仅供参考不提供专业意见。

    SE_You 2022-09-13
    20 0 0
  • 9008设备卡在华为logo界面

    问题描述 9008设备卡在华为logo界面很久,重启过多次依旧 告警信息 无 处理过程 1、收集bmc日志硬件未见异常 2、查看串口日志,已经过了内存自检的阶段,怀疑显示可能有问题 3、通过确认,之前bios进行过设置:bios下Video 选项设置为UEFI C50之前的软件版本中未合入VGA的UEFI驱动,如果将Video选项改为UEFI,重启后会导致显示异常  确认可以做清除cmos的操作,清除cmos解决 根因 C50之前的软件版本中未合入VGA的UEFI驱动,如果将Video选项改为UEFI,重启后会导致显示异常   与客户确认可以做清除cmos的操作,清除cmos解决 解决方案 与客户确认可以做清除cmos的操作,清除cmos解决 免责声明:本案例仅供参考不提供专业意见。

    SE_You 2022-08-01
    2 0 0