FusionCompute 升级后X6000服务器重启

问题描述

某局点升级后X6000服务器重启

告警信息

处理过程

1、升级R3C00版本时,升级X6000服务器的BMC版本至2.16以上。

2、通过关闭硬件狗方式规避,和异构服务器场景保持一致。

根因

在suse5.4版本中, ipmi模块在不需要轮询的时候,就不执行定时器函数smi_timeout();因此再下一条指令发送的时候就会有可能导致,time_diff的值大于1000ms,这个值超出了KCS模块的超时上限,因此OS会误判断为超时,会进入KCS异常,导致BMC不响应OS,导致看门狗超时复位。 UVP R3是内核版本为2.6.32.36 升级到 3.0.58-0.6.6 ,正好在2.6.32.54 内核修改范畴内。R3版本相对R2版本的IPMI消息大幅增加(统计impi驱动对BMC寄存器的操作次数,1个半小时,R3:1699841200;R2:611230500)。在服务器压力较高时在R3C00版本且BMC版本为2.15及以下时会触发服务器重启。

建议与总结

阅读剩余
THE END