锐捷S6120 内网偶发丢包

一、故障现象描述

2023 年9 月10 日,某医院反馈内网网络频繁中断异常问题,主要集中表现在一号楼急诊以及检验科,一天出现两三次网络中断,显示连不上服务器,网络中断时间不固定且故障时间一般为一两分钟,一两分钟后恢复网络正常,影响医务人员正常办公使用。
设备型号:S6120-48XS8CQ
设备版本:S6120_RGOS 11.0(5)B13
拓扑图:

二、故障排查分析

  1. 针对异常的中断的电脑开启与服务器的PING连通性测试,明确异常时间段确实存在持续性丢包问题。
  1. 核心接入汇聚进行ICMP的ACL计数,明确异常时间段,设备未将报文发送至网卡(点①可以看到PC上发出2635个报文,接入上进行ACL计数收到2623个报文,中间少了12个报文)。
  1. 进一步对终端报文进行分析(异常时间段PC一直发出ARP请求未得到应答),发现对应电脑ICMP未发送网卡是由于异常时间段未学习到网关的ARP信息,结合对应时间段报文,明确PC发出的ARP报文未得到应答导致无法正常进行ICMP报文封装。
  1. 异常时间段PC上通过arp –a核查,明确为网关ARP未学习到导致报文发送异常;
  2. 通过ACL计数针对ARP报文转发情况进行核查,异常时间段,汇聚与核心针对ARP报文均有转发异常情况(6120下行口收到422个报文,上行口转发出去391个报文,上行口收到385个报文回来,说明:1、6120 ARP报文转发少了31个 2、18X少回6个ARP报文)。
  1. 18X与S6120两端同时出现异常大概率是链路上存在异常,核查汇聚底层交换机日志,发现异常时间点存在接口异常down现象(AGG 54为汇聚上行聚合口)。
  1. 抓取对应故障时间段核心日志(捞取底层所有日志后进行过滤),明确对应核心18X RLDP惩罚接口,导致对应汇聚聚合口down。
  1. 针对RLDP检测异常的接口进一步核查(针对核心RLDP阻塞端口逐层进行核查),发现对应汇聚交换机下存在多个接口频繁震荡,且存在大量CRC错帧(ten 2/0/19、ten 2/0/15、ten 1/0/5、ten 2/0/5),针对频繁震荡的ten 2/0/19、ten 2/0/15、ten 2/0/5当前已手动关闭,避免业务影响。
  1. 对应汇聚异常端口关闭后,持续性观察24h,未二次出现RLDP检测环路,基本明确为对应汇聚关闭异常端口下存在环路以及链路质量问题,环路以及链路质量问题后续渠道方自行与工程队排查解决。

三、故障根因说明

综合上述分析,内网偶发异常中断是由于汇聚交换机下环境存在环路,核心N18X通过RLDP检测到环路,按照配置的shutdown惩罚动作对检测到环路的接口执行了shutdown,核心N18X接口shutdown,引起了汇聚接口物理down,导致对汇聚至核心流量转发异常,对应整个汇聚下内网访问中断。120秒后,N18X执行惩罚接口自动恢复,内网中断的现象又消失。如此往复,导致了偶发中断的故障现象。

四、故障解决方案

  1. 针对当前架构,若需使用RLDP进行环路检测,核心对应接口RLDP惩罚措施不能设置为shutdown改,修订为warning较合适;汇聚由于不支持聚合口的成员口下配置为warning策略,不建议汇聚聚合口成员接口配置RLDP。
  2. 按当前的医院架构,有条件的话建议核心汇聚接入交换机之间调整为STP防环,接入往下采用RLDP防环,可进一步提高网络的高可用性以及节省人力运维成本。
  3. 针对异常环路点进行核查,shutdown对应环路接口。

版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2596.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
海报
锐捷S6120 内网偶发丢包
一、故障现象描述 2023 年9 月10 日,某医院反馈内网网络频繁中断异常问题,主要集中表现在一号楼急诊以及检验科,一天出现两三次网络中断,显示连不上服务器,网络中断时间不固定且故障时间一般为一两分钟,一两分钟后恢复网络正常,影响医务人员正常办公使用。 设备型号:S6120-48XS8CQ 设备版本:S6120_RGOS 11.0(5)B13 拓扑图: 二、故障排查分析 针对异常的中断的电脑开启与服务器的PING连通性测试,明确异常时间段确实存在持续性丢包问题。 核心接入汇聚进行ICMP的ACL计数,明确异常时间段,设备未将报文发送至网卡(点①可以看到PC上发出2635个报文,接入上进行ACL计数收到2623个报文,中间少了12个报文)。 进一步对终端报文进行分析(异常时间段PC一直发出ARP请求未得到应答),发现对应电脑ICMP未发送网卡是由于异常时间段未学习到网关的ARP信息,结合对应时间段报文,明确PC发出的ARP报文未得到应答导致无法正常进行ICMP报文封装。 异常时间段PC上通过arp –a核查,明确为网关ARP未学习到导致报文发送异常; 通过ACL计数针对ARP报文转发情况进行核查,异常时间段,汇聚与核心针对ARP报文均有转发异常情况(6120下行口收到422个报文,上行口转发出去391个报文,上行口收到385个报文回来,说明:1、6120 ARP报文转发少了31个 2、18X少回6个ARP报文)。 18X与S6120两端同时出现异常大概率是链路上存在异常,核查汇聚底层交换机日志,发现异常时间点存在接口异常down现象(AGG 54为汇聚上行聚合口)。 抓取对应故障时间段核心日志(捞取底层所有日志后进行过滤),明确对应核心18X RLDP惩罚接口,导致对应汇聚聚合口down。 针对RLDP检测异常的接口进一步核查(针对核心RLDP阻塞端口逐层进行核查),发现对应汇聚交换机下存在多个接口频繁震荡,且存在大量CRC错帧(t……
<<上一篇
下一篇>>