CNA节点管理域CPU占用率超过阈值
问题描述
CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。
告警信息
CNA节点管理域CPU占用率超过阈值告警。
处理过程
FC Portal产生管理域CPU占用率超过阈值告警,怀疑与业务压力有关。
1、排查CNA节点,发现只有2个业务虚拟机,将该CNA节点上的虚拟机迁移空后,管理域CPU占用率资源仍然没有得到释放,达90%以上,如下图所示。
2、root账号进入CNA节点操作系统,查看Domain-0虚拟机的CPU占用率情况,确实比较高,如下图所示。
进一步查看CNA进程资源使用情况,top命令发现IPMI进程的CPU占用率有些异常。
根据上面现象怀疑与环境有关。
3、从现场了解到,属于异构虚拟化环境,服务器硬件(联想服务器)无BMC模块,而UVP系统存在IPMI模块,软件狗喂硬件狗的动作是通过主机内的IPMI模板块与BMC模块之间的交互实现的;如服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。因此,此问题是由IPMI模块跟BMC模块交互导致的。
4、软件狗功能说明
周期监测与汇聚交换机的连通性、周期监控业务进程状态、控制DRBD升主降备、周期喂硬件狗。
根因
服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。
解决方案
此类现象可以使用停止IPMI服务的方法来解决。使用root账号登录CNA节点的UVP系统,执行如下操作停止IPMI服务。
1、停止IPMI服务。
service ipmi stop
2、取消ipmi服务开机启动。
chkconfig ipmi off
1、停止IPMI服务。
service ipmi stop
2、取消ipmi服务开机启动。
chkconfig ipmi off
建议与总结
异构环境的服务器无BMC模块时,关闭UVP系统的IPMI模板。
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2106.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
THE END
0
打赏
海报
CNA节点管理域CPU占用率超过阈值
问题描述
CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。
告警信息
CNA节点管理域CPU占用率……
共有 0 条评论