-
RAID卡产生Multi-bit ECC错误但iBMC无告警
问题描述 客户一台RH5885 V3服务器系统挂死,重启系统后看到RAID卡报Multi-bit ECC Error错误,但在iBMC上没有看到相关告警,客户询问没有告警的原因。 处理过程 有两种方法可以确认RAID卡产生了Multi-bit ECC Error。 1. 系统挂死,重启系统后,能看到RAID卡报Multi-bit ECC Error。 2. 系统挂死,重启系统后,收集iBMC一键收集日志,在LSI_RAID_Controller_info日志里能看到Multi-bit ECC Error事件。 问题原因说明: RAID卡具备ECC(Error Correcting Code)这种内存校验机制,采用奇偶性校验的方法,出现的ECC错误分为Single-bit ECC Error和Multi-bit ECC Error两种。 Single-bit ECC Error:只有单个bit出现了错误,能通过奇偶性校验恢复,因此RAID卡能容许出现一定次数的Single-bit ECC Error。iBMC会从RAID卡获取出现错误的次数和产生告警的门限,当次数≥门限时,iBMC会产生告警并记录维护日志。 Multi-bit ECC Error:有多个bit出现了错误,不能通过奇偶性校验恢复,因此RAID卡通常会出现挂死,进而导致系统挂死甚至系统重启。RAID卡挂死后,iBMC无法通过RAID卡检测到产生了Multi-bit ECC Error,因此iBMC无法产生告警。系统重启后,Multi-bit ECC Error可能恢复,此时iBMC可以从RAID卡获取到一次Multi-bit ECC Error事件,并记录在LSI_RAID_Controller_info里,这个是在multi-bit ECC Error发生且系统重启之后延迟记录的。 解决方案 Single-bit ECC Error:处理方法参考案例http://3ms.huawei.com/hi/group/1004825/thread_7719709.html?mapId=9502473。 Multi-bit ECC Error:处理方法参考案例https://support.huawei.com/enterprise/zh/knowledge/KB1000097818。 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-01-188 0 0