-
CNA节点管理域CPU占用率超过阈值
问题描述 CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。 告警信息 CNA节点管理域CPU占用率超过阈值告警。 处理过程 FC Portal产生管理域CPU占用率超过阈值告警,怀疑与业务压力有关。 1、排查CNA节点,发现只有2个业务虚拟机,将该CNA节点上的虚拟机迁移空后,管理域CPU占用率资源仍然没有得到释放,达90%以上,如下图所示。 2、root账号进入CNA节点操作系统,查看Domain-0虚拟机的CPU占用率情况,确实比较高,如下图所示。 进一步查看CNA进程资源使用情况,top命令发现IPMI进程的CPU占用率有些异常。 根据上面现象怀疑与环境有关。 3、从现场了解到,属于异构虚拟化环境,服务器硬件(联想服务器)无BMC模块,而UVP系统存在IPMI模块,软件狗喂硬件狗的动作是通过主机内的IPMI模板块与BMC模块之间的交互实现的;如服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。因此,此问题是由IPMI模块跟BMC模块交互导致的。 4、软件狗功能说明 周期监测与汇聚交换机的连通性、周期监控业务进程状态、控制DRBD升主降备、周期喂硬件狗。 根因 服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。 解决方案 此类现象可以使用停止IPMI服务的方法来解决。使用root账号登录CNA节点的UVP系统,执行如下操作停止IPMI服务。 1、停止IPMI服务。 service ipmi stop 2、取消ipmi服务开机启动。 chkconfig ipmi off 建议与总结 异构环境的服务器无BMC模块时,关闭UVP系统的IPMI模板。 原文 此处内容需要 回复 后才能查看
SE_You 2024-10-2523 0 0 -
FusionCompute安装指导中PXE方式批量安装CNA节点–增强版
问题描述 当CNA节点的数量很大时,根据《FusionCompute_V100R003C10产品文档》通过PXE方式批量安装主机的过程依旧十分繁琐,需要登陆每台主机配置其信息,包括IP、网关、掩码、主机名及操作系统密码等,如下图所示,如果有100台主机,不仅费事费力,而且容易出错。此案例中提供一种简便的方式批量安装CNA操作系统,不需要登陆每台主机即可完成所有主机基本信息的配置。 处理过程 PXE方式安装CNA的其他过程与指导书类似,此处不再重述,以下方式是增强版安装CNA操作系统的操作步骤: 1、将含有特殊配置程序的before_mkfirstboot_hook拷贝到CNA操作系统解压文件的“all/addonscript/”目录下,修改文件“all/addonscript/before_mkfirstboot_hook/after/cna.cfg”,按照以下格式填写“主机bmcip 主机名 管理IP 管理子网掩码 管理网关”,五个字段之间用空格分隔(必须严格按照五个字段的先后顺序),示例如下: 该步骤前提需要完成服务器bmcip的设置,包含了以下操作: ① 根据cna.cfg中的bmcip自动设置主机的名称,管理ip; ② 修改完毕后需要使用UE软件将cna.cfg文件改为unix编码 ③ 替换setpass.vbs文件,解决300版本自动加域概率性失败问题(R3C10后不需要做) ④ 修改dom0规格 ⑤ 切换主机的多路径模式为华为多路径 ⑥ 如果上面有任何一个步骤失败。那么等待180秒后,主机会自动复位重启进行再次pxe加载重试;180秒的时间给用户用来定位失败原因;如果觉得180秒时间太长,可以自行修改文件A01Setup.sh和S02Start.sh中的时间 2、 安装主机操作系统 ① 登录待安装刀片的BMC,已下电的点“上电”,已上电的点“重启” ② 确认主机的启动顺序为:“第一启动顺序为硬盘启动,第二启动顺序为网络启动”,默认是这样的。 ③ 安装过程大约耗时10分钟,直到界面显示信息提示用户登录,说明安装成功。 建议与总结 增强版的PXE方式安装C……
SE_You 2024-10-1444 0 0 -
FusionCompute产品CNA节点重启问题
问题描述 某服务器虚拟化局点采用RH5885服务器作为CNA节点,两台CNA节点发生重启。 告警信息 无 处理过程 分别收集两台CNA的message日志分析,message日志显示现网2台CNA分别在15:38和19:50左右出现了异常重启。 1. 分析19:50重启后生成dump的文件,从dump信息看该节点重启原因为系统lpfc驱动异常触发。 2. 15:38分重启原因从串口日志中可以看出同样是由于lpfc驱动异常导致。 现网FusionSphere版本为R3C00SPC200,lpfc驱动版本为8.3.5.48.3p,经研发确认该版本驱动小概率异常情况下会导致服务器重启。FusionCompute R3C00SPC300版本已经修复该问题(驱动lpfc升级为8.3.7.18版本),现网升级到FusionCompute R3C00SPC300版本后问题解决。 根因 对于服务器重启问题,需要通过操作系统message日志和dump日志来分析问题原因。 建议与总结 针对RH5885服务器的lpfc驱动问题在已发布的FusionAdaptor版本修复,并在FusionCompute R3C00SPC300及R3C10版本合入,考虑到在FusionCompute R3C00SPC200使用RH5885的局点很少,且均已完成FusionAdaptor补丁安装。后续的新局点使用FusionCompute R3C00SPC300及R3C10版本交付。
SE_You 2024-07-0146 0 0 -
MySQL中间件之ProxySQL(6):管理后端节点
1.配置后端节点前的说明 为了让ProxySQL能够找到后端的MySQL节点,需要将后端的MySQL Server加入到ProxySQL中。ProxySQL的一切配置行为都是在修改main库中的对应的表,所以添加节点到ProxySQL中实际上也是通过修改相关表来实现的。 管理后端节点有几个过程: 将后端MySQL Server的主从复制结构配置好。 将后端MySQL Server节点加入到ProxySQL中。相关的表为mysql_servers。 监控后端节点。相关的表是全局变量表global_vairbles,相关的变量为mysql-monitor_开头的变量。 配置读、写组。相关的表为mysql_replication_hostgroups。 配置MySQL用户,用于发送SQL语句。相关的表为mysql_users。 几个注意点: (1).ProxySQL是通过监控后端节点的read_only值来自动调整节点所属组的,例如read_only=1的节点会移动到读组,read_only=0的节点会移动到写组。所以,在配置读、写组之前,需要先监控后端节点。ProxySQL也支持手动管理后端节点,这种模式不会根据read_only的值自动调整,在后面的文章中会介绍这种模式。 (2).对于传统的主从复制,默认的read_only=0,所以在第一步中,各slave节点的配置文件中需要加上read_only=1。对于组复制、Galera,因为会自动强制设置非写节点的read_only=1,所以无需额外配置该属性。 (3).ProxySQL支持传统主从复制结构(即异步、半同步、gtid复制)的后端,读、写组相关的表是mysql_replication_hostgroups。还支持MySQL组复制结构的后端,相关的表是mysql_group_replication_hostgroups,还支持Galera(如percona XtraDB cluster)结构的后端,不过ProxySQL是通过scheduler调度proxysql_galera_checker.sh脚本来支持Galera的,而且目前还没有mysql_galera_hostgroups(ProxySQL 2.0才新增该表)。 本文暂时只解释mysql_servers和mysql_replication_hostgroups,组复制相关的表在在后面介……
SE_You 2024-03-2066 0 0