-
FusionCompute出现CNA节点心跳异常的重要告警
问题描述 现网使用FusionCompute V100R003C00SPC100,运行过程中频繁出现CNA节点“主机心跳异常”的告警,经过很短的间隔,告警又自动消除。 告警信息 CNA节点出现“主机心跳异常”的告警 处理过程 手动强制时间同步操作,系统会出现此告警,系统自动消除告警,故无需手动处理。 根因 经过分析日志,发现CNA节点主机进行过一次强制时间同步操作,此操作首先会停掉NC进程,然后再进行NTP配置和强制时间同步,待配置成功后,再将各个进程恢复。 从进程停止再到进程恢复期间,VRM无法接收到CNA发送的心跳消息,从而导致主机经历了短暂的故障状态,待NC进程启动成功后,该告警会自动清除,属系统正常告警。 建议与总结 后续软件针对强制时间同步操作机制进行版本优化。
SE_You 2024-05-1316 0 0 -
安装GalaX业务包异常
问题描述 在执行source install.sh安装GalaX业务包的过程中,由于服务器意外掉电、或者其它误操作导致Putty界面停止响应,安装出现问题;在执行卸载命令后,再次安装GalaX业务包失败; 告警信息 无 处理过程 1.在/singleCLOUD目录下,执行命令sh uninstall.sh进行卸载操作, 然后执行命令rpm -qa | grep GalaX查找已经安装的rpm包,使用命令rpm -e 包名卸载查找到的rpm包。 执行命令ps -ef | grep xcat查找所有xcat进程的进程号,执行命令kill -9 进程号手动杀掉相应进程, 然后执行命令reboot重启服务器。重启完成后再次执行source install.sh进行安装GalaX业务包,问题得以解决。 2.如果步骤1无法解决,需要重新安装MCNA节点操作系统,重新配置MCNA节点后,再次安装MCNA节点业务软件。 根因 安装GalaX业务包过程意外中断,使用uninstall.sh脚本无法卸载干净,需要手动进行处理。 建议与总结 无
SE_You 2024-05-117 0 0 -
桌面云创建虚拟机异常案例–CNA内存不够
问题描述 创建节点虚拟机时,在MNPortal上提示:“创建节点虚拟机失败” 告警信息 在MNPortal上提示:“创建节点虚拟机失败”。 处理过程 对于以上的错误,都是由于CNA内部不足导致,需要对CNA的内存进行扩容,或则增加CNA节点解决; 根因 1.查看MCNA的日志信息:/var/log/autocfg/addvm.log;查找出现[ERROR]的地方。如下图: 然后向上查找发生错误的脚本,图中所示为: ssh IPSAN10_CNA01 '/bin/sh /startCNA/scripts/gms/createMVM.sh IMGS master0 -1' >> /var/log/autocfg/addvm.log 2>&1>,可以看出是在IPSAN10_CNA01这个CAN上执行/startCNA/scripts/gms/createMVM.sh脚本发生了错误; 2.登录到发生错误的CNA上,本例中的CNA是IPSAN10_CNA01,查看GMS日志信息: /startCNA/log/gms/createMVM.log,查找出现Failed的地方,如下图所示: 可以看出发生异常的是create /startCNA/log/cna/OMM/slaver/createvm这个命令; 3.继续在发生错误的CNA上,查看CNA的日志信息,本例的路径如下: /startCNA/log/cna/OMM/slaver/createvm/createvm.log【其中OMM为节点类型】;查找error字段,如下图所示:可以发现是因为异常CNA节点的内存不足以创建新的虚拟机。 4.也可以在发生错误的CNA上执行命令xentop查看NC内存大小,如果是12G的内存一般在上面只能创建1个虚拟机,再次创建则会由于内存不够导致创建虚拟机失败。下图所示的NC内存为50G左右; 建议与总结 无 原文
SE_You 2024-05-109 0 0 -
Galax安装时节点加载异常
问题描述 当加载节点超时,且未加载成功时,即表示节点加载异常。需要清理节点原来的加载信息并重新加载节点。 告警信息 加载超时 处理过程 判断加载异常的节点类型: 1. 加载异常的节点是否为物理节点? 是,执行步骤2; 否,执行步骤7; 重新加载物理节点: 2. 使用“PuTTY”,登录MCNA节点。 以“root”用户通过“管理IP地址”登录MCNA节点。 3. 执行以下命令,进行节点加载准备。 service galaxbtserver restart nodeset 节点名 install 4. 进入机房,重启故障物理节点服务器。 查看加载结果: 5. 在“SingleCLOUD安装配置系统”查看节点加载状态。 6. 节点是否加载成功? 是,结束。 否,请联系华为热线。 排除格式化超时问题: 7. 登录IP SAN,根据LUN ID找到管理节点使用的LUN。 8. 管理节点虚拟机使用的LUN的写策略配置是否配置为“回写、镜像”? 是,执行10。 否,执行9。 9. 配置管理节点使用的LUN的写策略为“回写、镜像”。 具体配置方法,请参见IP SAN设备资料。 重新加载虚拟节点: 10. 使用“PuTTY”,登录MCNA节点。 以“root”用户通过“管理IP地址”登录MCNA节点。 11. 执行以下命令,进行节点加载准备。 service galaxbtserver restart和nodeset 节点名 install 12. 执行以下命令,查看管理节点虚拟机ID。 tabdump mvm 13. 根据加载失败的管理节点虚拟机名称“node”字段,确认虚拟机ID和虚拟机所在CNA节点主机名。 虚拟机ID为第二个字段“id”,虚拟机所在CNA节点名称为倒数第三个字段“oncna”。例如上述信息中,节点“IMGS01”对应的虚拟机ID为“i-FA000001”,所在CNA节点主机名为“CNA02”。 14. 根据加载异常的虚拟机所在的CNA节点主机名获取CNA节点的管理IP地址。 根据加载异常的虚拟机所在的CNA节点主机名获取CNA节点的管理IP地址。 15. 使用“PuTTY”,……
SE_You 2024-05-0923 0 0 -
Galax安装时加载异常之MCNA节点IP冲突
问题描述 MCNA在下发配置到CNA是,因为CNA获取到的IP地址和MCNA的IP地址冲突导致加载失败;如下图: 告警信息 见上图 处理过程 由于MCNA的IP不可修改,只能下电与MCAN发生冲突的服务器,释放该IP后,重启故障节点。 根因 由于MCNA的IP冲突导致其他节点加载过程中,下载文件系统或内核时发生失败; 建议与总结 无 原文
SE_You 2024-05-0821 0 0 -
Galax安装时CNA节点反复重启
问题描述 MCNA下发配置的时候,CNA服务器重启后,在第一个DHCP获取到IP后xCAT提示被加载节点从硬盘引导时,紧接着第二个DHCP去申请IP。服务器在这个阶段不断重启。 告警信息 见上图 处理过程 选择“Network Drives”,进入“Network Drives”设置界面。 如果此界面中只包含有“1st Drive”设置项 => 步骤 d。 如果此界面中包含有“2nd Drive”设置项 => 步骤 b。 说明: 如果还有“3rd Drive”或更多设置项,请按照以下步骤将其全部设置为“Disabled”。 b、选择“2nd Drive”设置项,按“Enter”打开“Options”对话框。 c、选择“Disabled”,按“Enter”退出。 d、按“Esc”返回“Boot Settings”设置界面。 如下图所示: 需要保留1st Drive,Disabled掉图中所示的2nd Drive和3rd Drive 根因 新的服务器多个网卡,没有禁用除eth0的pxe功能,导致机器反复重启。 建议与总结 无 原文
SE_You 2024-05-0714 0 0 -
Galax安装时CNA节点反复重启
问题描述 服务器上电通过PXE进行加载,当进入自动发现内核时,服务器不断重启,如下图所示: 告警信息 Booting from filename "http://***.***.**.**/tftpboot/xcat/xnba/nets/***.***.**.**" ...... ...... ...... Kernel alive kernel direct mapping tables up to 640000000 0 10000-2a000 处理过程 方法1: 重新插拔服务器内存,保证内存分布在CPU的两侧。然后重启故障节点。方法2: 在MCNA上执行命令chtab node=节点名 mac.mac=MAC地址,将故障服务器的eth0的mac地址输入mac表中。然后执行命令nodeset 节点名 install,重启故障节点。 根因 新的服务器内存全部在CPU一侧,导致内核启动失败。 建议与总结 无 原文
SE_You 2024-05-0615 0 0 -
FusionCompute 平台多个虚拟机故障
问题描述 一套FusionComputeV100R006C00U1SPC003环境中,同一集群下十台主机先后上报主机与VRM心跳异常告警,导致虚拟机故障恢复中,HA一直不成功,上报HA资源不足告警。 告警信息 处理过程 登录一台故障主机进行查看,发现主机负载较高,存在D进程(D:不接受任何异步信号的休眠状态) 看D进程的信息,发现卡在加网络锁的步骤(网络锁用于协调多个主机之间对共享存储的访问,保证在多个主机同时访问存储时,每个主机都能够正确地访问存储数据,避免数据冲突和数据损坏。网络锁的加解锁都需要通过给其他主机发送网络请求实现,依赖主机节点间稳定的网络通信) 查看最早上报告警的CNA22的message日志,发现其发送释放网络锁的请求失败,返回错误码112和107(代表目标主机不可达和传输端点没有连接),释放锁失败导致其他主机无法获取网络锁。 进一步分析CNA22释放锁失败的原因,看到CNA22负载较高,导致CNA22网络锁进程异常,无法正常释放锁。 分析CNA22负载高的原因,发现该节点已经连续运行2189天,可能导致CPU、内存资源耗尽,引发网络锁进程异常,无法解锁。 因CNA22网络锁无法解锁,其他主机网络锁无法加锁,主机会随时间产生越来越多的D状态进程,完全耗尽主机资源,在心跳进程出现异常时上报主机心跳异常告警,虚拟机进入故障恢复中状态触发HA任务,长时间没有主机可HA虚拟机导致上报HA资源不足告警。 根因 因CNA22长时间运行,CPU、内存资源耗尽,导致网络锁进程异常,释放网络锁失败,进而导致同集群下所有主机无法加锁,持续一段时间后进入故障状态,所有虚拟机变为故障恢复中。重启释放锁失败的CNA22节点,网络锁释放,集群内主机逐步恢复。 解决方案 建议定期重启主机,一至两年重启一次。 由于XEN架构版本已EOS,建议将虚拟机业务搬迁至KVM架构的高……
SE_Meng 2023-03-1917 0 0 -
Fusioncompute 用户如何解锁定
问题描述 Fusioncompute 8.2.0版本密码输入次数过多,账户被锁定了,怎么处理呢 解决方案 使用“PuTTY”,登录VRM主节点。 以“gandalf”用户,通过管理平面浮动IP地址登录。 1、执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root 2、执行以下命令,防止“PuTTY”超时退出。 TMOUT=0 3、执行以下命令,进入/opt/galax/root/vrm/tomcat/script/omsconfig/bin目录。 cd /opt/galax/root/vrm/tomcat/script/omsconfig/bin 4、执行以下命令,运行脚本。 sh resetSystemManageUser.sh unlock 5、回显中包含如下信息,表示执行成功。 unlock user success. 6、使用admin用户登录FusionCompute,通过手动的方式将用户解锁。 7、在FusionCompute左侧导航中,单击点击放大。进入“系统管理”页面。 8、选择“系统管理 > 权限管理 > 用户管理”。进入“用户管理”页面。 9、在待解锁定用户所在行中,选择“更多 > 解锁定”。弹出提示框。 10、输入当前登录用户密码,单击“确定”。完成用户的解锁定。该用户的“管理状态”显示“正常”。 任务结束。 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-03-118 0 0 -
FusionCompute 登录升级工具显示后台服务异常
问题描述 工程师对FusionCompute进行升级,登录升级工具显示后台服务异常 告警信息 处理过程 先执行下stop.bat停止服务,再到pasql目录下执行dbstop.bat,再执行dbstart.bat,再重新执行start.bat启动服务,如果还是不行,就只有重启下电脑了 解决方案 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-03-095 0 0