锐捷设备网络丢包故障排查SOP
一、故障现象
终端或者交换机ping外网或者内网其他设备存在丢包情况。
二、组网拓扑
常规网络拓扑如下:
拓扑描述: PC通过接入、汇聚交换机连接到核心,PC的网关在核心上,核心往上通过安全设备,路由器连接到外网。
三、可能原因
-
环境异常,导致对应MAC漂移、ARP变动、CPP队列丢包等;
-
性能限制,对应流量超交换机接口带宽、转发容量、背板带宽等;
-
配置限制,对应接口配置端口限速、QOS限速等流量策略;
四、处理步骤:
-
先梳理丢包源目的流量路径(需要特别注意是否有极简X SC方案,若有,流量路径需要将旁挂设备纳入),基于流量路径通过ACL计数,界定出对应丢包设备,针对异常丢包设备核查丢包根因。
-
梳理对应故障时间线,明确故障前客户行为、客户操作、故障是否存在规律,分析是否与设备性能/接口带宽/容量限制/方案架构等关联因素。
-
执行show logg命令,核查历史日志,明确对应时间段是否有存在异常日志,比如RLDP环路、地址冲突、线卡异常等异常日志。
-
执行show run命令,核查对应设备是否存在rate-limit或者QOS等限速配置,对应限速命令会导致对应流量超出限速阈值后丢包。
-
间隔1S执行多次show arp detail x.x.x.x / show mac address h.h.h,核查对应丢包源目IP地址在丢包的时候,有没有出现接口或者MAC变动的情况,若是出现对应MAC变动,主要核查是否存在地址冲突,若是存在接口变动,主要核查是否存在环境环路问题。如下图,明显存在MAC漂移情况。
-
通过点4可明确对应流量经过端口,执行对应show inter g x/x,主要关注以下两个参数:
接口是否存在CRC/DROP数值增长情况,若是,主要核查物理接口以及物理链路是否存在异常。
接口peak时间是不是丢包时间,若是,主要核查丢包的时候是否存在流量跑满情况。
-
执行show cpu-protect核查对应CPP,明确是否存在异常的CPU队列丢包行为,若有,主要核查是否为存在对应队列报文的攻击行为。
-
执行show nfpp log buffer,核查对应丢包源目IP以及端口是否在对应buffer内,若存在,主要核查对应是否有设置NFPP隔离等动作以及评估对应阈值设置是否合理。
-
联系400协助核查。
五、故障信息收集
请按如下进行信息收集
term length 0
show clock
show ver
show ver detail
show ver slot
show run
show sw vi
show sw vi con
show sw vi link port
show int status
show int status err-disable
show interface usage
show int co rate
show int co sum
show int co err
show int link-state-change statistics
show int
show int
show int tran
show int tran alarm
show int tran diag
show int tran manu
show cpu
show cpu | ex 0.00% 0.00% 0.00%
show cpu-protect
show cpu-protect slot xxx //若是框式设备需要收集各张线卡的情况,xx代表线卡槽位号
show memory
clear counter
show int co sum
show int co sum
show int co sum
show int co ra
show int co ra
show int co ra
show mac
show mac
show mac
show arp
show arp count
show mac count
show nfpp log buff
show nfpp arp-guard sum
show nfpp arp-guard host
show nfpp arp-guard scan
show nfpp ip-guard sum
show nfpp ip-guard host
show nfpp dhcp-guard sum
show nfpp dhcp-guard host
show reboot-reason
show reboot-reason detail
show upgra his
show span su
show span port rec
show span con
show log
ter no le
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2604.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
THE END
0
二维码
打赏
海报
锐捷设备网络丢包故障排查SOP
一、故障现象
终端或者交换机ping外网或者内网其他设备存在丢包情况。
二、组网拓扑
常规网络拓扑如下:
拓扑描述: PC通过接入、汇聚交换机连接到核心,PC的网关在核心上,核心往上通过安全设备,路由器连接到外网。
三、可能原因
环境异常,导致对应MAC漂移、ARP变动、CPP队列丢包等;
性能限制,对应流量超交换机接口带宽、转发容量、背板带宽等;
配置限制,对应接口配置端口限速、QOS限速等流量策略;
四、处理步骤:
先梳理丢包源目的流量路径(需要特别注意是否有极简X SC方案,若有,流量路径需要将旁挂设备纳入),基于流量路径通过ACL计数,界定出对应丢包设备,针对异常丢包设备核查丢包根因。
梳理对应故障时间线,明确故障前客户行为、客户操作、故障是否存在规律,分析是否与设备性能/接口带宽/容量限制/方案架构等关联因素。
执行show logg命令,核查历史日志,明确对应时间段是否有存在异常日志,比如RLDP环路、地址冲突、线卡异常等异常日志。
执行show run命令,核查对应设备是否存在rate-limit或者QOS等限速配置,对应限速命令会导致对应流量超出限速阈值后丢包。
间隔1S执行多次show arp detail x.x.x.x / show mac address h.h.h,核查对应丢包源目IP地址在丢包的时候,有没有出现接口或者MAC变动的情况,若是出现对应MAC变动,主要核查是否存在地址冲突,若是存在接口变动,主要核查是否存在环境环路问题。如下图,明显存在MAC漂移情况。
通过点4可明确对应流量经过端口,执行对应show inter g x/x,主要关注以下两个参数:
接口是否存在CRC/DROP数值增长情况,若是,主要核查物理接口以及物理链路是否存在异常。
接口peak时间是不是丢包时间,若是,主要核查丢包的时候是否存在流量跑满情况。
执行show cpu-protect核查对应CPP,明确是否存在异常的CP……
共有 0 条评论