-
数据存储空间不足导致虚拟机删除快照失败
问题描述 2014年8月18日上午9:15左右接某局点上报虚拟机无法登录问题,虚拟机于8月17日凌晨1:10左右使用HyperDP做虚拟机备份,创建快照成功,但是删除快照时,截止到8月18号上午10:00,任务一直进行中。FC Portal上无法重启VM,提示有任务在进行 告警信息 FC Portal上有告警如下图: 处理过程 1、 登录VRM数据库查看快照删除任务的详细状态发现:虚拟机系统盘快照已经删除成功,数据盘快照一直处于删除中的状态 2、 为了尽快恢复客户业务,从底层对该虚拟机执行下电操作,虚拟机下电成功,再给系统进行上电,系统卡在启动页面,无法正常进入系统。登录虚拟机所在的CNA节点,虚拟机数据盘所在的数据存储HW_Cloud_P_lun01已经达到100%,实际可用空间变为0 3、 进一步分析问题触发因素:数据存储空间占用率过高→虚拟机创建快照→数据存储可用空间为0→虚拟机删除快照任务卡住→虚拟机无法重启、虚拟机故障、业务异常 4、问题出现的根因就是数据存储实际可用空间为0,导致虚拟机业务异常,因此需要迁移该数据存储中的部分磁盘至其他有可用容量的数据存储上去,然后执行快照删除动作,重新启动虚拟机 根因 数据存储空间被占满导致快照无法删除,从而影响虚拟机业务。 建议与总结 数据存储使用率已经接近或者达到100%,虚拟机在删除快照时,无法申请到可用空间,快照删除任务卡死。虚拟机手动关闭重新上电后,同样是因为数据存储使用率已经达到100%,导致无法正常读写数据,虚拟机启动异常。建议在存储空间使用上,要留有一定的余量,尽量在告警阀值一下,尤其是部署HDP的场景。
SE_You 2024-07-3022 0 0 -
FusionCompute R3C00版本VRM定时备份数据库导致VRM系统自动下电
问题描述 FusionCompute R3C00 VRM主节点操作系统自动下电,业务切换到备节点 注:VRM物理部署 告警信息 部件类型: FusionCompute, 告警名称: 主备间节点心跳故障, 告警级别: 紧急, 产生时间: 2014-08-28 02:19:22 UTC+08:00, 告警对象: hghfsc005vrm 处理过程 1、FusionCompute portal出现告警,主备间节点心跳故障; 2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,如下图所示; 3、通过BMC手工上电服务器恢复; 4、清理不需要的归档日志及安装包 5、升级R3C10版本 根因 分析过程: 1、FusionCompute portal出现告警,主备间节点心跳故障; 2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,通过BMC日志可查看到下电时间; 3、通过BMC手工上电服务器恢复; 4、通过putty登陆VRM操作系统,查看/var/log/目录下对应时间点的message日志,发现系统自动下电,发送shutting down命令,相关日志信息如下图所示 5、查看/var/log/galaxenginelog/watchdog/目录下查看对应时间点的watchdog日志,发现无磁盘空间,相关信息如下: 6、通过df -h命令查看,操作系统根分区剩余空间为0,查看/tmp/ge_backup目录达到5G左右,该目录为FusionCompute备份数据的临时目录,如下图所示 7、清理/tmp/ge_backup临时目录,释放根分区空间,如下图所示 根因:FusionCompute R3C00版本备份数据库首先把数据放到/tmp/ge_backup目录下,然后再放到/var下生成压缩文件,如果根分区剩余空间小于数据库大小,会导致根分区空间被占满,系统自动下电 建议与总结 1、根据站点实际情况,调整VRM分区大小 2、调整临时目录到其他分区,FusionCompute R3C10版本已经将临时目录调整到/var下
SE_You 2024-07-2526 0 0 -
虚拟化平台物理交换机VLAN配置错误导致FusionCompute网络通信异常
问题描述 虚拟化平台搭建完成后,在FusionCompute上部署业务虚拟机,为其配置IP及网关地址,测试网络时无法ping通网关地址。 告警信息 无 处理过程 1、在FusionCompute上确认分布式虚拟交换机端口绑定是否有错误,确认无错误; 2、检查S5700物理交换机端口的配置,发现对应端口没有配置好VLAN信息; 3、修改S5700物理交换机对应端口配置: undo port hybrid vlan 1 port hybrid tagged vlan X(业务VLAN号) 4、再次进行ping网关地址测试,问题解决。 根因 同一网段IP地址无法ping通,可能得原因为: 1、分布式交换机业务平面绑定端口错误; 2、物理交换机S5700对应端口或VLAN配置错误。 建议与总结 虚拟平台基于物理平台完成网络通信,搭建虚拟平台前要确保物理交换机配置正确。
SE_You 2024-07-1911 0 0 -
如何处理数据存储空间占满导致虚拟机蓝屏问题
问题描述 虚拟机启动时出现蓝屏现象,如下所示: 告警信息 FusionCompute Portal界面上报“存储使用容量超过阈值”告警,告警ID为15.1005003,附加信息显示该数据存储占用率为100%。 处理过程 1) 对使用率占满数据存储上的虚拟机通过存储迁移,释放相应空间。 2) 将使用率占满数据存储上的不用虚拟机删除,释放空间。 根因 虚拟机所用存储类型为虚拟化数据存储,支持精简配置,该数据存储创建了大量虚拟机快照,当数据存储的已分配容量大于总容量时如果实际可用容量耗尽,则后续IO将无法分配到空间,虚拟机启动时概率性引起虚拟机卡死或蓝屏。 建议与总结 无
SE_You 2024-07-1021 0 0 -
虚拟机创建过快照导致解绑定磁盘失败
问题描述 虚拟机操作系统故障,已经分配了新的虚拟机,将故障虚拟机的数据磁盘解绑定时,提示存在快照,导致无法解绑定磁盘。 告警信息 解绑定磁盘时,提示虚拟机存在快照。 处理过程 1. 通过“监控”->“备份”,找到之前虚拟机创建快照的ID号。 2. 主备份服务器上,使用Admin账号(或通过VNC使用ssh Admin@127.0.0.1)登录命令行,切换到monitor模式。 3. 执行删除快照命令(delete snapshot snapshot_id=快照ID)。 4. 待快照删除后,解绑定磁盘。 根因 虚拟机之前通过HyperDP做过备份,怀疑备份类型为“快照比对”,导致虚拟机会一直保留一个快照。FusionCompute无法直接删除该快照,需要通过HyperDP备份服务器下发删除命令。 说明: “CBT备份” 方式,使用该备份方式,在虚拟机没有备份任务运行时,该虚拟机不需要保留备份快照。 “快照比对” 方式,使用该备份方式,在虚拟机没有备份任务运行时,该虚拟机也需要保留一个备份快照,对非备份期间虚拟机的性能影响较大。 建议与总结 无。
SE_You 2024-07-0510 0 0