FusionCompute R3C00版本VRM定时备份数据库导致VRM系统自动下电
问题描述
注:VRM物理部署
告警信息
处理过程
2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,如下图所示;
3、通过BMC手工上电服务器恢复;
4、清理不需要的归档日志及安装包
5、升级R3C10版本
根因
分析过程:
1、FusionCompute portal出现告警,主备间节点心跳故障;
2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,通过BMC日志可查看到下电时间;
3、通过BMC手工上电服务器恢复;
4、通过putty登陆VRM操作系统,查看/var/log/目录下对应时间点的message日志,发现系统自动下电,发送shutting down命令,相关日志信息如下图所示
5、查看/var/log/galaxenginelog/watchdog/目录下查看对应时间点的watchdog日志,发现无磁盘空间,相关信息如下:
6、通过df -h命令查看,操作系统根分区剩余空间为0,查看/tmp/ge_backup目录达到5G左右,该目录为FusionCompute备份数据的临时目录,如下图所示
7、清理/tmp/ge_backup临时目录,释放根分区空间,如下图所示
根因:FusionCompute R3C00版本备份数据库首先把数据放到/tmp/ge_backup目录下,然后再放到/var下生成压缩文件,如果根分区剩余空间小于数据库大小,会导致根分区空间被占满,系统自动下电
建议与总结
2、调整临时目录到其他分区,FusionCompute R3C10版本已经将临时目录调整到/var下
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/1641.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论