锐捷N18K VSU配置文件同步失败
一、故障现象描述
6月14日凌晨,设备运行过程中突然打印VSU配置同步失败日志:VSU-3-CFG_SYNC: Failed to synchronize vsu configuration to MB 1/M2 [-1],由于当天并未对VSU配置进行变更,暂未影响到业务。
二、故障排查分析
-
只有用户输入write命令时才会触发vsu配置同步动作,查看VSU配置同步失败之前的日志,发现在故障前两分钟有passadmin账号登陆设备,并在00:57:38秒执行了配置修改,推测该账号执行了write操作触发了VSU配置同步。
-
执行write后,由全局主(现场环境为1/M1)设备保存写入config_vsu.dat私有配置,并通过socket同步通告至全局备(现场环境为2/M1),全局备保存自身vsu配置写入config_vsu.dat文件,全局主和全局备都会通过socket同步配置至各自的本地备(例如现场环境为1/M2和2/M2),本地备会将配置写入config_vsu.dat文件;配置同步过程大概有几秒的超时等待,若此时文件写入失败,则会打印VSU配置同步失败日志。
-
VSU配置文件写入失败的原因主要有以下两种:1)data空间不足导致文件无法写入;2)TIPC通道异常导致主备引擎之间的通信异常。结合现场信息,未有TIPC异常或主备引擎异常日志,因此进一步排查data空间大小不足导致文件写入失败。
-
查看现场的data空间,发现data空间只有12k可用空间,小于配置文件config.text和VSU配置文件config_vsu.dat的大小之和,而data空间还存在其他的进程读写文件,在data空间不够的情况下,若此时写入config_vsu.dat文件时,data空间恰好没有空间,就会导致文件写入失败,从现场收集的dir信息来看,本次VSU配置文件没有写成功(config_vsu.dat的上次更新时间为2月29日,非6月14日)。
-
为进一步验证data空间不足导致的VSU配置同步失败,内部构造data空间不足的场景执行write操作,也出现与现场相同的故障现象。
-
内部环境中,在恢复data空间大小后又连续执行了2245次write操作后,均未出现保存失败的情况,因此可以明确本次故障是由于data空间不够导致的。
三、故障根因说明
该问题是由于现场环境中data空间不足,导致config_vsu.dat文件写入失败,引发VSU配置同步失败日志打印。
四、故障解决方案
如果要保证配置及VSU配置文件写入成功,则data分区建议至少要有1M的可用空间,查看现场的flash空间,发现之前由于收集FE卡故障,有coredump文件占用空间较大,建议将该文件删除,结合之前收集的信息,删除coredump后,data分区可用空间会超过1M。
五、故障总结
阅读剩余
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/3260.html
文章版权归作者所有,未经允许请勿转载。
THE END