FusionCompute出现FRU Hot Swap热插拔状态重要告警

问题描述

现网使用FusionCompute V100R003C00SPC100,运行过程中频繁出现FRU Hot Swap热插拔状态重要告警,经过很短的间隔,告警又自动消除。

告警信息

出现FRU Hot Swap热插拔状态重要告警。

处理过程

系统自动消除告警,故无需手动处理。

根因

在多个时间点出现FRU Hot Swap重要告警并自动清除,FRU Hot Swap重要告警是由于SMM对服务器刀片及可插拔部件进行检测发现如果有部件被拔出/服务器刀片的功耗获取失败,则会产生该类告警。SMM板和BMC通讯机制当前按照1s钟一次的频率通过以太网进行通信,每轮通信发3次,如果3次都通信不上则认为失败,如果在1s内遇到系统网络短暂拥塞,导致通信不上,则会产生对应的告警。而从系统日志分析在此时间段并无部件被拔出和功耗获取异常的告警,系统工作正常。此告警为误告警。

建议与总结

后续软件针对通讯机制进行版本优化,增加通信次数和频率,防止网络短暂拥塞导致的误告警。
阅读剩余
THE END