锐捷VSU分裂排查SOP

一、故障现象

VSU正常运行过程中出现VSU分裂现象,出现问题时设备角色一般表现为双主或是主机、recovery。

二、组网拓扑

三、可能原因

  1. VLS链路光纤或是光模块异常;
  2. 网络中有环路,导致VSL协商报文阻塞;
  3. VSL链路配置异常;
  4. VSL链路所在线卡异常;
  5. 设备故障;

四、故障排查步骤

步骤一:检测VSL链路是否正常

  1. 使用命令“show switch vi link port”检查VSL链路是否正常UP,如果VSL链路正常UP,继续步骤二排查。
① 正常UP的VSL端口:
② 异常情况下VSL端口:
  1. 发现VLS端口异常时,首先使用命令“show interfaces transceiver diagnosis”检查下VSL端口的光衰情况
    1. 具体光衰是否合理,需要具体光模块型号进行查看,可以参考锐捷光块手册,链接如下:https://www.ruijie.com.cn/fw/wd-cp-gmk/
    2. 插拔模块观察光衰是否可以恢复;
    3. 更换光模块观察光衰是否可以恢复;
    4. 更换光纤观察光衰是否可以恢复;
  2. 在第二点排查完成的基础上,通过命令“show switch vi config ”检测VLS链路配置情况。
① 检测对应VSL链路端口是否正常加入到了VSL,如下表示正常加入到了VSL中。
② 根据具体的设备型号以及版本找到对应的产品SPEC,查到VUS的VSL限制条件,查看端口是否满足条件。
  1. 通过命令“show ver”命令查看设备状态是否正常以及是否重启过
  1. 通过命令“show log”分析日志是否有关于VUS相关的异常日志。

步骤二:检查设备环境是否正常

  1. 检查设备环路情况,判断是否由于环路问题导致设备处理VSL报文异常
① 检查网络是否正常,比如:PING测试
② 检查设备CPU、内存是否正常;
③ 检查设备是否有收发异常组播、广播数据报文,参考命令:
show interfaces counters summary  up
show interfaces usage 
show spanning-tree summary 
show rldp loop
show interfaces gigabitEthernet XX
  1. 检查设备CPP、NFPP是否有丢包,参考命令:show cpu-protect mboard 、show nfpp log buffer
通过检查CPP报文统计,观察是否有大量异常的数据类型冲抵设备消耗设备资源,而导致设备处理VSL 报文超时,
引擎VSL处理超时的原因有。
① 异常数据冲抵CPU
② 接口频繁UP/DOWN
③ 环境存在环路
④ 环境中存在攻击行为

步骤三: 收集信息,请联系4008111000协助处理

五、信息收集

show switch virtual
show run
show version
show switch virtual
show switch virtual config
show switch virtual dual-active
show switch virtual link
show switch virtual link port
show switch virtual role
show switch virtual topology
show redundancy states  
show interfaces transceiver
show cpu-protect slot x/y   
show log
12x设备可以补充一键信息收集

 

六、总结与建议

  1. 首先明确故障出现背景
  2. VSU分裂主要原因是由于VSL链路异常导致,所以出现故障现象时聚焦VSL链路异常进行排查
阅读剩余
THE END