包含标签:VRM系统 的文章
  • FusionCompute R3C00版本VRM定时备份数据库导致VRM系统自动下电

    问题描述 FusionCompute R3C00 VRM主节点操作系统自动下电,业务切换到备节点 注:VRM物理部署 告警信息 部件类型: FusionCompute, 告警名称: 主备间节点心跳故障, 告警级别: 紧急, 产生时间: 2014-08-28 02:19:22 UTC+08:00, 告警对象: hghfsc005vrm 处理过程 1、FusionCompute portal出现告警,主备间节点心跳故障; 2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,如下图所示; 3、通过BMC手工上电服务器恢复; 4、清理不需要的归档日志及安装包 5、升级R3C10版本 根因 分析过程: 1、FusionCompute portal出现告警,主备间节点心跳故障; 2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,通过BMC日志可查看到下电时间; 3、通过BMC手工上电服务器恢复; 4、通过putty登陆VRM操作系统,查看/var/log/目录下对应时间点的message日志,发现系统自动下电,发送shutting down命令,相关日志信息如下图所示 5、查看/var/log/galaxenginelog/watchdog/目录下查看对应时间点的watchdog日志,发现无磁盘空间,相关信息如下: 6、通过df -h命令查看,操作系统根分区剩余空间为0,查看/tmp/ge_backup目录达到5G左右,该目录为FusionCompute备份数据的临时目录,如下图所示 7、清理/tmp/ge_backup临时目录,释放根分区空间,如下图所示 根因:FusionCompute R3C00版本备份数据库首先把数据放到/tmp/ge_backup目录下,然后再放到/var下生成压缩文件,如果根分区剩余空间小于数据库大小,会导致根分区空间被占满,系统自动下电 建议与总结 1、根据站点实际情况,调整VRM分区大小 2、调整临时目录到其他分区,FusionCompute R3C10版本已经将临时目录调整到/var下

    SE_You 2024-07-25
    26 0 0