FusionCompute R3C00版本VRM定时备份数据库导致VRM系统自动下电

问题描述

FusionCompute R3C00 VRM主节点操作系统自动下电,业务切换到备节点
注:VRM物理部署

告警信息

部件类型: FusionCompute, 告警名称: 主备间节点心跳故障, 告警级别: 紧急, 产生时间: 2014-08-28 02:19:22 UTC+08:00, 告警对象: hghfsc005vrm

处理过程

1、FusionCompute portal出现告警,主备间节点心跳故障;
2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,如下图所示;

3、通过BMC手工上电服务器恢复;
4、清理不需要的归档日志及安装包
5、升级R3C10版本

根因

分析过程:
1、FusionCompute portal出现告警,主备间节点心跳故障;
2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,通过BMC日志可查看到下电时间;
3、通过BMC手工上电服务器恢复;
4、通过putty登陆VRM操作系统,查看/var/log/目录下对应时间点的message日志,发现系统自动下电,发送shutting down命令,相关日志信息如下图所示

5、查看/var/log/galaxenginelog/watchdog/目录下查看对应时间点的watchdog日志,发现无磁盘空间,相关信息如下:

6、通过df -h命令查看,操作系统根分区剩余空间为0,查看/tmp/ge_backup目录达到5G左右,该目录为FusionCompute备份数据的临时目录,如下图所示

7、清理/tmp/ge_backup临时目录,释放根分区空间,如下图所示

根因:FusionCompute R3C00版本备份数据库首先把数据放到/tmp/ge_backup目录下,然后再放到/var下生成压缩文件,如果根分区剩余空间小于数据库大小,会导致根分区空间被占满,系统自动下电

建议与总结

1、根据站点实际情况,调整VRM分区大小
2、调整临时目录到其他分区,FusionCompute R3C10版本已经将临时目录调整到/var下
阅读剩余
THE END