锐捷S86E交换机下联终端无法ping通网关
一、故障现象
大量的终端出现ping网关地址时通时不通的情况。 网络拓扑如下:
二、设备型号和版本
设备型号:S8610E
软件版本号:B19P2
三、故障排查思路
-
ping不通时首先要定位丢包点在哪个设备上;
-
出现丢包可能的原因:
原因一:终端硬件或软件收到报文没有发出
原因二:出现环路同一个mac地址从其他的接口收到,导致转发路径不正确
原因三:出现广播风暴,或者设备被大量异常报文攻击,导致CPP出现丢包
四、故障排查过程
1、首先判断ping不通的报文被丢在哪个设备上,在C校区汇聚上我们发现不通的终端从两个接口学到了同一个vlan地址,确定丢包点是在S86E上。
2、需要定位为什么会出现从两个接口学到同一个mac,首先确认终端mac地址应该要从哪个接口上来。3/7接的上联N18K,3/1接下联的接入交换机,终端正常应该要从3/1进行学习现在从N18k上也学习到了mac,从ACL计数也确认了有收到从N18发来的源为这mac地址的报文。
3、现在的话需要判断,报文为什么会从N18K上发出。这种情况,怀疑点偏向环路问题导致,下一步可以先排查现网环境是否有出现环路情况。
N18K上开启了RLDP后发现有在A区的下联的一个接口有出现vlan 125的环路告警。
4、最后是发现了A区下的一个VLAN 125的终端有接两根网线在同一个接入交换机上出现了这个,将这个环路排查完后,业务恢复正常。
5、为什么C区的问题在A区会出现故障现象?
1)C区的终端发出一个不属于网关地址的ARP广播报文。
2)N18K收到这个报文后会向所有属于VLAN 125的接口进行报文的泛洪,当报文泛洪到A区后。
3)因为A区有出现环路的情况,导致报文从A区发出后在下面的环路里面绕了一圈重新发到了N18K上。
4)当N18K从A区收到了刚刚从C区收到的广播报文但不是请求本地地址时候。
5)会向其他接口泛洪,导致A区接口也发出了这个广播报文,A区汇聚从N18K的上联收到这个源地址是下面终端的报文后就出现了同一个mac的地址从两个不同的接口不同的vlan上学到的情况出现,导致网络时通时不通。
故障原因总结:环路原因导致的终端转发路径异常导致的终端ping网关时通时不通。
五、解决方案
将环路排查后,业务恢复正常
六、故障总结
1)转发面ping不通基本收集命令
Show mac
Show arp
Show int counter summary
Show cpu-protect summary
开启RLDP、show rldp loop,环境是否存在环路
ACL计数确认报文是否有收到
Show span summary,有开生成树也要看看是不是接口被block
2)控制面ping不通
Show mac
Show arp
Show int counter summary
Show cpu-protect summary
开启RLDP、show rldp loop,环境是否存在环路
ACL计数确认报文是否有收到
Debug efmp packet filter 开启快转看软件层面对报文的处理情况
Show span summary,有开生成树也要看看是不是接口被block
这个故障还有发现一软件问题:
S86E和N18K的普适版本在B19P2版本及之前的版本都有MAC地址不老化的情况。后续版本有进行这个问题的优化。
1、现场的qinq内层标签是125外层标签是1,发现再S86E上,学到了从两个接口(3/1和3/7)上学到同一个mac地址。
2、通过acl计数S86E的上联和下联口发现只有下联口又故障终端的mac地址流量上来。核心上并没有发这个流量。
3、在S86E的底层中L2 show发现有这个mac地址又两个hit的流量。实际只有一个接口上来了流量
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2594.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
THE END
0
二维码
打赏
海报
锐捷S86E交换机下联终端无法ping通网关
一、故障现象
大量的终端出现ping网关地址时通时不通的情况。 网络拓扑如下:
二、设备型号和版本
设备型号:S8610E
软件版本号:B19P2
三、故障排查思路
ping不通时首先要定位丢包点在哪个设备上;
出现丢包可能的原因:
原因一:终端硬件或软件收到报文没有发出
原因二:出现环路同一个mac地址从其他的接口收到,导致转发路径不正确
原因三:出现广播风暴,或者设备被大量异常报文攻击,导致CPP出现丢包
四、故障排查过程
1、首先判断ping不通的报文被丢在哪个设备上,在C校区汇聚上我们发现不通的终端从两个接口学到了同一个vlan地址,确定丢包点是在S86E上。
2、需要定位为什么会出现从两个接口学到同一个mac,首先确认终端mac地址应该要从哪个接口上来。3/7接的上联N18K,3/1接下联的接入交换机,终端正常应该要从3/1进行学习现在从N18k上也学习到了mac,从ACL计数也确认了有收到从N18发来的源为这mac地址的报文。
3、现在的话需要判断,报文为什么会从N18K上发出。这种情况,怀疑点偏向环路问题导致,下一步可以先排查现网环境是否有出现环路情况。
N18K上开启了RLDP后发现有在A区的下联的一个接口有出现vlan 125的环路告警。
4、最后是发现了A区下的一个VLAN 125的终端有接两根网线在同一个接入交换机上出现了这个,将这个环路排查完后,业务恢复正常。
5、为什么C区的问题在A区会出现故障现象?
1)C区的终端发出一个不属于网关地址的ARP广播报文。
2)N18K收到这个报文后会向所有属于VLAN 125的接口进行报文的泛洪,当报文泛洪到A区后。
3)因为A区有出现环路的情况,导致报文从A区发出后在下面的环路里面绕了一圈重新发到了N18K上。
4)当N18K从A区收到了刚刚从C区收到的广播报文但不是请求本地地址时候。
5)会向其他接口泛洪,导致A区接口也发出了这个广播报文,A区汇聚从N18K的……
共有 0 条评论