FusionCompute

FusionCompute

FusionCompute出现CNA节点心跳异常的重要告警

问题描述现网使用FusionCompute V100R003C00SPC100，运行过程中频繁出现CNA节点“主机心跳异常”的告警，经过很短的间隔，告警又自动消除。告警信息 CNA节点出现“主机心跳异常”的告警处理过程手动强制时间同步操作，系统会出现此告警，系统自动消除告警，故无需手动处理。根因经过分析日志，发现CNA节点主机进行过一次强制时间同步操作，此操作首先会停掉NC进程，然后再进行NTP配置和强制时间同步，待配置成功后，再将各个进程恢复。从进程停止再到进程恢复期间，VRM无法接收到CNA发送的心跳消息，从而导致主机经历了短暂的故障状态，待NC进程启动成功后，该告警会自动清除，属系统正常告警。建议与总结后续软件针对强制时间同步操作机制进行版本优化。

SE_You 2024-05-13

16 0 0
FusionCompute

安装GalaX业务包异常

问题描述在执行source install.sh安装GalaX业务包的过程中，由于服务器意外掉电、或者其它误操作导致Putty界面停止响应，安装出现问题；在执行卸载命令后，再次安装GalaX业务包失败；告警信息无处理过程 1.在/singleCLOUD目录下，执行命令sh uninstall.sh进行卸载操作，然后执行命令rpm -qa | grep GalaX查找已经安装的rpm包，使用命令rpm -e 包名卸载查找到的rpm包。执行命令ps -ef | grep xcat查找所有xcat进程的进程号，执行命令kill -9 进程号手动杀掉相应进程，然后执行命令reboot重启服务器。重启完成后再次执行source install.sh进行安装GalaX业务包，问题得以解决。 2.如果步骤1无法解决，需要重新安装MCNA节点操作系统，重新配置MCNA节点后，再次安装MCNA节点业务软件。根因安装GalaX业务包过程意外中断，使用uninstall.sh脚本无法卸载干净，需要手动进行处理。建议与总结无

SE_You 2024-05-11

7 0 0
FusionCompute

桌面云创建虚拟机异常案例–CNA内存不够

问题描述创建节点虚拟机时，在MNPortal上提示：“创建节点虚拟机失败” 告警信息在MNPortal上提示：“创建节点虚拟机失败”。处理过程对于以上的错误，都是由于CNA内部不足导致，需要对CNA的内存进行扩容，或则增加CNA节点解决；根因 1.查看MCNA的日志信息：/var/log/autocfg/addvm.log；查找出现[ERROR]的地方。如下图：然后向上查找发生错误的脚本，图中所示为： ssh IPSAN10_CNA01 '/bin/sh /startCNA/scripts/gms/createMVM.sh IMGS master0 -1' >> /var/log/autocfg/addvm.log 2>&1>，可以看出是在IPSAN10_CNA01这个CAN上执行/startCNA/scripts/gms/createMVM.sh脚本发生了错误； 2.登录到发生错误的CNA上，本例中的CNA是IPSAN10_CNA01，查看GMS日志信息： /startCNA/log/gms/createMVM.log，查找出现Failed的地方，如下图所示：可以看出发生异常的是create /startCNA/log/cna/OMM/slaver/createvm这个命令； 3.继续在发生错误的CNA上，查看CNA的日志信息，本例的路径如下： /startCNA/log/cna/OMM/slaver/createvm/createvm.log【其中OMM为节点类型】；查找error字段，如下图所示：可以发现是因为异常CNA节点的内存不足以创建新的虚拟机。 4.也可以在发生错误的CNA上执行命令xentop查看NC内存大小，如果是12G的内存一般在上面只能创建1个虚拟机，再次创建则会由于内存不够导致创建虚拟机失败。下图所示的NC内存为50G左右；建议与总结无原文

SE_You 2024-05-10

9 0 0
FusionCompute

Galax安装时节点加载异常

问题描述当加载节点超时，且未加载成功时，即表示节点加载异常。需要清理节点原来的加载信息并重新加载节点。告警信息加载超时处理过程判断加载异常的节点类型： 1. 加载异常的节点是否为物理节点？是，执行步骤2；否，执行步骤7；重新加载物理节点： 2. 使用“PuTTY”，登录MCNA节点。以“root”用户通过“管理IP地址”登录MCNA节点。 3. 执行以下命令，进行节点加载准备。 service galaxbtserver restart nodeset 节点名 install 4. 进入机房，重启故障物理节点服务器。查看加载结果： 5. 在“SingleCLOUD安装配置系统”查看节点加载状态。 6. 节点是否加载成功？是，结束。否，请联系华为热线。排除格式化超时问题： 7. 登录IP SAN，根据LUN ID找到管理节点使用的LUN。 8. 管理节点虚拟机使用的LUN的写策略配置是否配置为“回写、镜像”？是，执行10。否，执行9。 9. 配置管理节点使用的LUN的写策略为“回写、镜像”。具体配置方法，请参见IP SAN设备资料。重新加载虚拟节点： 10. 使用“PuTTY”，登录MCNA节点。以“root”用户通过“管理IP地址”登录MCNA节点。 11. 执行以下命令，进行节点加载准备。 service galaxbtserver restart和nodeset 节点名 install 12. 执行以下命令，查看管理节点虚拟机ID。 tabdump mvm 13. 根据加载失败的管理节点虚拟机名称“node”字段，确认虚拟机ID和虚拟机所在CNA节点主机名。虚拟机ID为第二个字段“id”，虚拟机所在CNA节点名称为倒数第三个字段“oncna”。例如上述信息中，节点“IMGS01”对应的虚拟机ID为“i-FA000001”，所在CNA节点主机名为“CNA02”。 14. 根据加载异常的虚拟机所在的CNA节点主机名获取CNA节点的管理IP地址。根据加载异常的虚拟机所在的CNA节点主机名获取CNA节点的管理IP地址。 15. 使用“PuTTY”，……

SE_You 2024-05-09

23 0 0
FusionCompute

Galax安装时加载异常之MCNA节点IP冲突

问题描述 MCNA在下发配置到CNA是，因为CNA获取到的IP地址和MCNA的IP地址冲突导致加载失败；如下图：告警信息见上图处理过程由于MCNA的IP不可修改，只能下电与MCAN发生冲突的服务器，释放该IP后，重启故障节点。根因由于MCNA的IP冲突导致其他节点加载过程中，下载文件系统或内核时发生失败；建议与总结无原文

SE_You 2024-05-08

21 0 0
FusionCompute

Galax安装时CNA节点反复重启

问题描述 MCNA下发配置的时候，CNA服务器重启后，在第一个DHCP获取到IP后xCAT提示被加载节点从硬盘引导时，紧接着第二个DHCP去申请IP。服务器在这个阶段不断重启。告警信息见上图处理过程选择“Network Drives”，进入“Network Drives”设置界面。如果此界面中只包含有“1st Drive”设置项 => 步骤 d。如果此界面中包含有“2nd Drive”设置项 => 步骤 b。说明：如果还有“3rd Drive”或更多设置项，请按照以下步骤将其全部设置为“Disabled”。 b、选择“2nd Drive”设置项，按“Enter”打开“Options”对话框。 c、选择“Disabled”，按“Enter”退出。 d、按“Esc”返回“Boot Settings”设置界面。如下图所示：需要保留1st Drive，Disabled掉图中所示的2nd Drive和3rd Drive 根因新的服务器多个网卡，没有禁用除eth0的pxe功能，导致机器反复重启。建议与总结无原文

SE_You 2024-05-07

14 0 0
FusionCompute

Galax安装时CNA节点反复重启

问题描述服务器上电通过PXE进行加载，当进入自动发现内核时，服务器不断重启，如下图所示：告警信息 Booting from filename "http://***.***.**.**/tftpboot/xcat/xnba/nets/***.***.**.**" ...... ...... ...... Kernel alive kernel direct mapping tables up to 640000000 0 10000-2a000 处理过程方法1：重新插拔服务器内存，保证内存分布在CPU的两侧。然后重启故障节点。方法2：在MCNA上执行命令chtab node=节点名 mac.mac=MAC地址，将故障服务器的eth0的mac地址输入mac表中。然后执行命令nodeset 节点名 install，重启故障节点。根因新的服务器内存全部在CPU一侧，导致内核启动失败。建议与总结无原文

SE_You 2024-05-06

15 0 0
FusionCompute

FusionCompute 平台多个虚拟机故障

问题描述一套FusionComputeV100R006C00U1SPC003环境中，同一集群下十台主机先后上报主机与VRM心跳异常告警，导致虚拟机故障恢复中，HA一直不成功，上报HA资源不足告警。告警信息处理过程登录一台故障主机进行查看，发现主机负载较高，存在D进程（D:不接受任何异步信号的休眠状态）看D进程的信息，发现卡在加网络锁的步骤（网络锁用于协调多个主机之间对共享存储的访问，保证在多个主机同时访问存储时，每个主机都能够正确地访问存储数据，避免数据冲突和数据损坏。网络锁的加解锁都需要通过给其他主机发送网络请求实现，依赖主机节点间稳定的网络通信）查看最早上报告警的CNA22的message日志，发现其发送释放网络锁的请求失败，返回错误码112和107（代表目标主机不可达和传输端点没有连接），释放锁失败导致其他主机无法获取网络锁。进一步分析CNA22释放锁失败的原因，看到CNA22负载较高，导致CNA22网络锁进程异常，无法正常释放锁。分析CNA22负载高的原因，发现该节点已经连续运行2189天，可能导致CPU、内存资源耗尽，引发网络锁进程异常，无法解锁。因CNA22网络锁无法解锁，其他主机网络锁无法加锁，主机会随时间产生越来越多的D状态进程，完全耗尽主机资源，在心跳进程出现异常时上报主机心跳异常告警，虚拟机进入故障恢复中状态触发HA任务，长时间没有主机可HA虚拟机导致上报HA资源不足告警。根因因CNA22长时间运行，CPU、内存资源耗尽，导致网络锁进程异常，释放网络锁失败，进而导致同集群下所有主机无法加锁，持续一段时间后进入故障状态，所有虚拟机变为故障恢复中。重启释放锁失败的CNA22节点，网络锁释放，集群内主机逐步恢复。解决方案建议定期重启主机，一至两年重启一次。由于XEN架构版本已EOS，建议将虚拟机业务搬迁至KVM架构的高……

SE_Meng 2023-03-19

17 0 0
FusionCompute

Fusioncompute 用户如何解锁定

问题描述 Fusioncompute 8.2.0版本密码输入次数过多，账户被锁定了，怎么处理呢解决方案使用“PuTTY”，登录VRM主节点。以“gandalf”用户，通过管理平面浮动IP地址登录。 1、执行以下命令，并按提示输入“root”用户的密码，切换至“root”用户。 su - root 2、执行以下命令，防止“PuTTY”超时退出。 TMOUT=0 3、执行以下命令，进入/opt/galax/root/vrm/tomcat/script/omsconfig/bin目录。 cd /opt/galax/root/vrm/tomcat/script/omsconfig/bin 4、执行以下命令，运行脚本。 sh resetSystemManageUser.sh unlock 5、回显中包含如下信息，表示执行成功。 unlock user success. 6、使用admin用户登录FusionCompute，通过手动的方式将用户解锁。 7、在FusionCompute左侧导航中，单击点击放大。进入“系统管理”页面。 8、选择“系统管理 > 权限管理 > 用户管理”。进入“用户管理”页面。 9、在待解锁定用户所在行中，选择“更多 > 解锁定”。弹出提示框。 10、输入当前登录用户密码，单击“确定”。完成用户的解锁定。该用户的“管理状态”显示“正常”。任务结束。免责声明：本案例仅供参考不提供专业意见。

SE_Meng 2023-03-11

8 0 0
FusionCompute

FusionCompute 登录升级工具显示后台服务异常

问题描述工程师对FusionCompute进行升级，登录升级工具显示后台服务异常告警信息处理过程先执行下stop.bat停止服务，再到pasql目录下执行dbstop.bat，再执行dbstart.bat，再重新执行start.bat启动服务，如果还是不行，就只有重启下电脑了解决方案免责声明：本案例仅供参考不提供专业意见。

SE_Meng 2023-03-09

5 0 0

首页上一页 9 10 11 12 13 13/13