CNA节点管理域CPU占用率超过阈值

问题描述

CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。

告警信息

CNA节点管理域CPU占用率超过阈值告警。

处理过程

FC Portal产生管理域CPU占用率超过阈值告警,怀疑与业务压力有关。

1、排查CNA节点,发现只有2个业务虚拟机,将该CNA节点上的虚拟机迁移空后,管理域CPU占用率资源仍然没有得到释放,达90%以上,如下图所示。

2、root账号进入CNA节点操作系统,查看Domain-0虚拟机的CPU占用率情况,确实比较高,如下图所示。

进一步查看CNA进程资源使用情况,top命令发现IPMI进程的CPU占用率有些异常。

根据上面现象怀疑与环境有关。

3、从现场了解到,属于异构虚拟化环境,服务器硬件(联想服务器)无BMC模块,而UVP系统存在IPMI模块,软件狗喂硬件狗的动作是通过主机内的IPMI模板块与BMC模块之间的交互实现的;如服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。因此,此问题是由IPMI模块跟BMC模块交互导致的。

4、软件狗功能说明
周期监测与汇聚交换机的连通性、周期监控业务进程状态、控制DRBD升主降备、周期喂硬件狗

根因

服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。

解决方案

此类现象可以使用停止IPMI服务的方法来解决。使用root账号登录CNA节点的UVP系统,执行如下操作停止IPMI服务。
1、停止IPMI服务。
service ipmi stop
2、取消ipmi服务开机启动。
chkconfig ipmi off

建议与总结

异构环境的服务器无BMC模块时,关闭UVP系统的IPMI模板。

此处内容需要 回复 后才能查看

版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2106.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。

THE END
打赏
海报
CNA节点管理域CPU占用率超过阈值
问题描述 CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。 告警信息 CNA节点管理域CPU占用率……
<<上一篇
下一篇>>