锐捷VSU主备机配置不同步排查SOP

一、故障现象

vsu主机和备机的config.text或config_vsu.dat配置文件不同步: (1)日志中打印配置同步失败的日志
(2)执行write操作时提示配置同步失败

二、组网拓扑

三、可能原因

config.text配置不同步:
  1. 管理板data分区已满,文件无法写入
  2. VSU系统异常,VSU分裂
  3. 主备机之间的tipc通道异常
  4. 通过show run来判断主备机同步一致性,误认为不同步
config_vsu.dat配置不同步:
  1. 设备的管理板data分区已满,导致文件无法写入
  2. TIPC连接没有建立成功
  3. emmc读写速度慢导致报文交互超时

四、故障排查步骤

config.text配置不同步:

步骤一:检查是否通过备机上show run来确认的配置不同步

  1. 主备机并不是所有配置都需要实时同步生效,不需要实时同步的业务,由配置管理框架将配置文件同步到备机【/tmp/vsd/0/mng/cli/running-config.new】,因此不能只通过备机上的show run 来判断主备机配置文件的同步性
  2. 确认备机上的实时备份是否成功,可以在主机上执行wr之后,再去备机上通过more config.text查看配置文件是否和主机一致

步骤二:检查VSU系统状态是否正常

  1. VSU系统异常如VSU分裂了,则可能导致配置无法同步,通过Ruijie#show switch virtual 查看当前的VSU系统状态,role角色分别为active和standy的情况属于正常情况
若是show switch virtual 显示只有一个设备,则检查VSU系统是否组建成功或者分裂

步骤三:检查设备的管理板data分区是否已满,导致文件无法写入

  1. 四张管理引擎的分区都要检查,任何一个data分区已满都会导致文件写入失败
  2. 如何查看data分区是否已满: dir查看free的空间大小
run-system-shell查看df -h中的data空间
封shell则通过Ruijie(support)#execute diagnose-cmd hardware 2 30 df -h 命令查看
  1. 若空间不足,可以删除一些syslog文件或其他不需要的文件来恢复data空间的大小

步骤四:检查tipc通信是否异常

  1. 可以尝试Ruijie#session device 2 slot m1 登陆到2机,确认是否可以登陆到2机,如果失败则可能是tipc通道异常

config_vsu.dat配置不同步:

步骤一:检查设备的管理板data分区是否已满,导致文件无法写入

  1. 四张管理引擎的分区都要检查,任何一个data分区已满都会导致文件写入失败
  2. 如何查看data分区是否已满: dir查看free的空间大小
run-system-shell查看df -h中的data空间

步骤二:检查TIPC连接是否没有建立成功

  1. 一般是设备刚启机时,TIPC通信还未建立好,此时执行write命令将会失败,debug时(debug vsu-cfg level verbose打开调试命令,低峰期操作)会打印:<vsu_cfg_get_clnt_sd_by_switchid, 219>:get client by switch_id<2>failed

步骤三:检查是否emmc读写速度慢导致报文交互超时

  1. 可以进入shell的设备执行:time dd if=/dev/zero of=/dev/emmcblk0p7 count=1 bs=16801792可以查看emmc的读写速率,正常情况为2-3s,超出则可能引起超时
  1. 不能进入shell的设备,可以通过debug时的打印来判断,会打印:<vsu_cfg_wait_cfg_sync_ack, 636>:wait time out.

五、信息收集

show switch virtual
show run
show version
show switch virtual
show switch virtual config
show switch virtual dual-active
show switch virtual link
show switch virtual link port
show switch virtual role
show switch virtual topology
show redundancy states  
show interfaces transceiver
show cpu-protect slot x/y   
show log
show ver sl
debug support
execute diagnose-cmd hardware 2 30  more /tmp/vsd/0/mng/cli/running-config.new
12x设备可以补充一键信息收集

 

六、总结与建议

  1. VSU主备机配置不同步,首先要明确是config.text配置不同步还是config_vsu.dat配置文件不同步,然后再按照对应的步骤进行排查。
阅读剩余
THE END