包含标签:平台 的文章
  • 虚拟化平台物理交换机VLAN配置错误导致FusionCompute网络通信异常

    问题描述 虚拟化平台搭建完成后,在FusionCompute上部署业务虚拟机,为其配置IP及网关地址,测试网络时无法ping通网关地址。 告警信息 无 处理过程 1、在FusionCompute上确认分布式虚拟交换机端口绑定是否有错误,确认无错误; 2、检查S5700物理交换机端口的配置,发现对应端口没有配置好VLAN信息; 3、修改S5700物理交换机对应端口配置: undo port hybrid vlan 1 port hybrid tagged vlan X(业务VLAN号) 4、再次进行ping网关地址测试,问题解决。 根因 同一网段IP地址无法ping通,可能得原因为: 1、分布式交换机业务平面绑定端口错误; 2、物理交换机S5700对应端口或VLAN配置错误。 建议与总结 虚拟平台基于物理平台完成网络通信,搭建虚拟平台前要确保物理交换机配置正确。

    SE_You 2024-07-19
    11 0 0
  • FusionCompute 平台多个虚拟机故障

    问题描述 一套FusionComputeV100R006C00U1SPC003环境中,同一集群下十台主机先后上报主机与VRM心跳异常告警,导致虚拟机故障恢复中,HA一直不成功,上报HA资源不足告警。 告警信息   处理过程 登录一台故障主机进行查看,发现主机负载较高,存在D进程(D:不接受任何异步信号的休眠状态)   看D进程的信息,发现卡在加网络锁的步骤(网络锁用于协调多个主机之间对共享存储的访问,保证在多个主机同时访问存储时,每个主机都能够正确地访问存储数据,避免数据冲突和数据损坏。网络锁的加解锁都需要通过给其他主机发送网络请求实现,依赖主机节点间稳定的网络通信) 查看最早上报告警的CNA22的message日志,发现其发送释放网络锁的请求失败,返回错误码112和107(代表目标主机不可达和传输端点没有连接),释放锁失败导致其他主机无法获取网络锁。 进一步分析CNA22释放锁失败的原因,看到CNA22负载较高,导致CNA22网络锁进程异常,无法正常释放锁。 分析CNA22负载高的原因,发现该节点已经连续运行2189天,可能导致CPU、内存资源耗尽,引发网络锁进程异常,无法解锁。 因CNA22网络锁无法解锁,其他主机网络锁无法加锁,主机会随时间产生越来越多的D状态进程,完全耗尽主机资源,在心跳进程出现异常时上报主机心跳异常告警,虚拟机进入故障恢复中状态触发HA任务,长时间没有主机可HA虚拟机导致上报HA资源不足告警。 根因 因CNA22长时间运行,CPU、内存资源耗尽,导致网络锁进程异常,释放网络锁失败,进而导致同集群下所有主机无法加锁,持续一段时间后进入故障状态,所有虚拟机变为故障恢复中。重启释放锁失败的CNA22节点,网络锁释放,集群内主机逐步恢复。 解决方案 建议定期重启主机,一至两年重启一次。 由于XEN架构版本已EOS,建议将虚拟机业务搬迁至KVM架构的高……

    SE_Meng 2023-03-19
    17 0 0