数据存储空间不足导致虚拟机删除快照失败

问题描述

2014年8月18日上午9:15左右接某局点上报虚拟机无法登录问题,虚拟机于8月17日凌晨1:10左右使用HyperDP做虚拟机备份,创建快照成功,但是删除快照时,截止到8月18号上午10:00,任务一直进行中。FC Portal上无法重启VM,提示有任务在进行

告警信息

FC Portal上有告警如下图:

处理过程

1、 登录VRM数据库查看快照删除任务的详细状态发现:虚拟机系统盘快照已经删除成功,数据盘快照一直处于删除中的状态
2、 为了尽快恢复客户业务,从底层对该虚拟机执行下电操作,虚拟机下电成功,再给系统进行上电,系统卡在启动页面,无法正常进入系统。登录虚拟机所在的CNA节点,虚拟机数据盘所在的数据存储HW_Cloud_P_lun01已经达到100%,实际可用空间变为0
3、 进一步分析问题触发因素:数据存储空间占用率过高→虚拟机创建快照→数据存储可用空间为0→虚拟机删除快照任务卡住→虚拟机无法重启、虚拟机故障、业务异常
4、问题出现的根因就是数据存储实际可用空间为0,导致虚拟机业务异常,因此需要迁移该数据存储中的部分磁盘至其他有可用容量的数据存储上去,然后执行快照删除动作,重新启动虚拟机

根因

数据存储空间被占满导致快照无法删除,从而影响虚拟机业务。

建议与总结

数据存储使用率已经接近或者达到100%,虚拟机在删除快照时,无法申请到可用空间,快照删除任务卡死。虚拟机手动关闭重新上电后,同样是因为数据存储使用率已经达到100%,导致无法正常读写数据,虚拟机启动异常。建议在存储空间使用上,要留有一定的余量,尽量在告警阀值一下,尤其是部署HDP的场景。
阅读剩余
THE END