配置二层远程镜像后业务中断问题

https://support.huawei.com/enterprise/zh/knowledge/EKB1100130353

问题描述

现网12708交换机配置二层远程镜像,将eth-trunk1接口的流量镜像至eth-trunk2后业务中断。

告警信息

S12700E-8 %%01TRUNK/5/MEMBER DOWN(1)[7703]:The status of the trunk member went Down. (TrunkName=Eth-Trunk2,
PortName=40GE2/8/1/3, Reason=LACP down)
S12700E-8 %%01TRUNK/5/MEMBER DOWN(1)[7704]:The status of the trunk member went Down. (TrunkName=Eth-Trunk2,
PortName=40GE1/8/1/3, Reason=LACP down)
S12700E-8 %%01TRUNK/5/MEMBER UP(1)[7705]:The status of the trunk member went Up. (TrunkName=Eth-Trunk2,
PortName=40GE2/8/1/3)
S12700E-8 %%01TRUNK/5/MEMBER UP(1)[7706]:The status of the trunk member went Up. (TrunkName=Eth-Trunk2,
PortName=40GE1/8/1/3)

处理过程

步骤 1 查看业务异常设备日志,故障时间点配置了端口镜像,20秒后Eth-Trunk2出现LACP down告警

步骤 2 查看对端设备日志,确认LACP down告警的原因为LACP报文中的源mac变动。可见eth-trunk2链路上出现了异常的LACP报文,结合客户的组网及配置,发现镜像端口eth-trunk1也使能了lacp,端口镜像功能将该接口上的lacp报文也镜像到了eth-trunk2口。由于lacp协议处理时不关注报文中的vlan,导致镜像过来的lacp报文影响了eth-trunk2之间正常的lacp协议报文交互,从而导致eth-trunk2 LACP协议状态异常。

12700E LACP/2/PDUC:OID 1.3.6.1.4.1.2011.5.25.41.3.35 The LACP member interface's status changed from selecte

步骤 3 继续往后看日志可以看到 eth-trunk2 LACP协议状态异常 后导致两设备之间的vrrp协议震荡。

----结束

根因

因为镜像口是eth-trunk口观察口也是eth-trunk口,且都使能了lacp。端口镜像将镜像口的lacp报文镜像到了观察口,导致和该观察口相连的对端设备的eth-trunk口收到了错误的lacp报文,从而导致lacp 协议down,进而引起vrrp协议震荡,进而导致业务中断。

解决方案

使用流镜像屏蔽bpdu报文

建议与总结

1. 如果做远程端口镜像,会导致镜像流量流经的交换机对镜像过来的BPDU报文进行STP计算,会导致STP收敛异常。以此类推,eth-trunk lacp报文也存在类似情况,会导致lacp震荡。

2. 强烈建议现网使用端口镜像功能时,用专门的接口作为观察口,观察口不要用于转发业务流量,防止互相干扰。

3. 如果由于实际组网限制观察口必须复用业务口,建议使用流镜像的方式,精确匹配自己需要的流量进行镜像。示例参考:

https://support.huawei.com/hedex/hdx.do?docid=EDOC1100247317&id=ZH-CN_TASK_0177112433

阅读剩余
THE END