RAID卡产生Multi-bit ECC错误但iBMC无告警
问题描述
客户一台RH5885 V3服务器系统挂死,重启系统后看到RAID卡报Multi-bit ECC Error错误,但在iBMC上没有看到相关告警,客户询问没有告警的原因。
处理过程
有两种方法可以确认RAID卡产生了Multi-bit ECC Error。
1. 系统挂死,重启系统后,能看到RAID卡报Multi-bit ECC Error。
2. 系统挂死,重启系统后,收集iBMC一键收集日志,在LSI_RAID_Controller_info日志里能看到Multi-bit ECC Error事件。
问题原因说明:
RAID卡具备ECC(Error Correcting Code)这种内存校验机制,采用奇偶性校验的方法,出现的ECC错误分为Single-bit ECC Error和Multi-bit ECC Error两种。
Single-bit ECC Error:只有单个bit出现了错误,能通过奇偶性校验恢复,因此RAID卡能容许出现一定次数的Single-bit ECC Error。iBMC会从RAID卡获取出现错误的次数和产生告警的门限,当次数≥门限时,iBMC会产生告警并记录维护日志。
Multi-bit ECC Error:有多个bit出现了错误,不能通过奇偶性校验恢复,因此RAID卡通常会出现挂死,进而导致系统挂死甚至系统重启。RAID卡挂死后,iBMC无法通过RAID卡检测到产生了Multi-bit ECC Error,因此iBMC无法产生告警。系统重启后,Multi-bit ECC Error可能恢复,此时iBMC可以从RAID卡获取到一次Multi-bit ECC Error事件,并记录在LSI_RAID_Controller_info里,这个是在multi-bit ECC Error发生且系统重启之后延迟记录的。
解决方案
Single-bit ECC Error:处理方法参考案例http://3ms.huawei.com/hi/group/1004825/thread_7719709.html?mapId=9502473。
Multi-bit ECC Error:处理方法参考案例https://support.huawei.com/enterprise/zh/knowledge/KB1000097818。
版权声明:
作者:SE_Meng
链接:https://www.cnesa.cn/680.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论