锐捷N18010 下联1栋楼无线AP不通AC

一、故障现象描述

客户感知的故障现象:3号楼所有AP都掉线了,无线用户不能上网。
故障的技术异常表现:无线工程师排查发现AP与AC之间连通性异常,AP无法ping通AC上的隧道地址。
场景拓扑 :
两台AC6816组成VAC,两台N18010组成VSU,AC与核心N18010通过AGG1直连,所有网关都在核心上。
故障区域3号楼在核心的接口是vlan 3300,通过AGG24与下联汇聚单线路互联。:

二、故障排查分析

现象分析:通过故障现象和无线工程师的初步排查可以获得的有效信息如下。
  1. AP无法ping通AC上的隧道地址2.2.2.2。
  2. N18010直连可以ping通AC的2.2.2.2地址,并且可以通过该地址telnet登陆到AC上。
  3. 客户未对网络做过变更操作。
基于上述信息,说明AP掉线的原因是与AC的连通性异常导致。导致连通性异常的原因,是交互报文在中间链路上丢失。所以排查重点是找到报文的丢失点,并明确丢失原因。
排查步骤:
  1. 定位丢包点
      在核心上对连接AC的接口和连接3号楼的接口进行ACL计数,确定丢包点是否为核心,如果丢包点是核心,则进一步排查核心丢包原因,如果丢包点在上联进方向或下联进方向则进一步排查对应上下联设备的丢包原因。

    a.AP ping AC计数结果表明,AC正常回包,核心正常接收到AC回包,但未从下联口送出

      基本明确AP与AC之间的通信报文中断是发生在核心设备,进一步排查核心。
    1. 排查送错接口的可能性
        show log中没有异常日志。
        检查前往AP的路由是否正确以及核心上是否有AP的arp,确认三层通信基本条件能否满足。
        通过show ip ref exact-route 2.2.2.2 10.145.4.127 以及show arp,确认路由转发的出接口正确,arp学习正确,在三层表项层面可以排除送错接口的可能性,进一步明确是设备上丢包。
    2. 明确设备上丢包位置
        开启快转过滤特征icmp报文和PKT匹配特征报文,AC以2.2.2.2为源长ping AP地址。结果是未能过滤到报文,PKT也无计数信息,说明报文未送CPU处理。
      terminal monitor
      debug efmp packet filter etype ip v4_protocol icmp ipv4_sip host 2.2.2.2 ipv4_dip host 10.145.4.127 counter 10
      debug pkt-monitor match etype 0x800
      debug pkt-monitor match src-ip 2.2.2.2
      debug pkt-monitor match dst-ip 10.145.4.127
      debug pkt-monitor monitor begin
      debug pkt-monitor show statistic
      run-system-shell
      lc 1
      me //确认线卡正确,再看线卡PKT
      cat /tmp/pkt_monitor_statistic
        检查ssa进程的异常记录,无明显异常。
      cat /tmp/proxy/defout/ssa_process
        进SDK查看show c没有丢包增长,进一步查看1/1线卡下联口的show c,也没有丢包增长,但实际ICMP处于持续丢包的状态,疑似线卡芯片异常。
      debug-ssa
      show c //连续两次,间隔5s
      sd
      ssaport ddev //确定下联口寄存器名
      exit
      show c xe3 //xe3即ddev看到的接口寄存器名
    3. 排查线卡芯片是否正常
    在SDK下通过show c cpu排查线卡芯片是否正常在和引擎CPU通信,发现1/1线卡芯片没有任何送CPU处理的寄存器增长。
    对比1/2线卡的show c cpu回显,1/2线卡送CPU处理的寄存器有正常增长,说明1/1线卡存在异常,线卡报文无法送CPU处理,导致了业务转发异常。
    a //查看当前所处芯片
    show c cpu //查看线卡芯片报文送CPU处理的寄存器增长情况

    三、故障根因说明

    1/1线卡芯片异常,线卡芯片无法与CPU正常通信,线卡需要送CPU处理的报文无法正常上送CPU处理,控制面的异常会影响到转发面正常运行,例如arp无法执行打通、CPU下发转发表项无法安装等。

    四、故障解决方案

    1. 业务恢复方案:将异常线卡上的业务迁移到其他正常线卡。
    2. 1/1线卡芯片异常,进行送修处理。

    五、经验总结

    1. 转发面和控制面虽然是互相隔离的,但控制面的异常,也可能会影响到转发面的正常运行。比如上下层表项不一致等情况。
    2. 当故障表现出设备有收没发,且明确是设备丢包时,可以将线卡芯片故障作为一个排查点,
    3. 检查线卡是否能够正常将报文上送CPU处理,可以通过show c cpu来单独查看。

版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2584.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
海报
锐捷N18010 下联1栋楼无线AP不通AC
一、故障现象描述 客户感知的故障现象:3号楼所有AP都掉线了,无线用户不能上网。 故障的技术异常表现:无线工程师排查发现AP与AC之间连通性异常,AP无法ping通AC上的隧道地址。 场景拓扑 : 两台AC6816组成VAC,两台N18010组成VSU,AC与核心N18010通过AGG1直连,所有网关都在核心上。 故障区域3号楼在核心的接口是vlan 3300,通过AGG24与下联汇聚单线路互联。: 二、故障排查分析 现象分析:通过故障现象和无线工程师的初步排查可以获得的有效信息如下。 AP无法ping通AC上的隧道地址2.2.2.2。 N18010直连可以ping通AC的2.2.2.2地址,并且可以通过该地址telnet登陆到AC上。 客户未对网络做过变更操作。 基于上述信息,说明AP掉线的原因是与AC的连通性异常导致。导致连通性异常的原因,是交互报文在中间链路上丢失。所以排查重点是找到报文的丢失点,并明确丢失原因。 排查步骤: 定位丢包点   在核心上对连接AC的接口和连接3号楼的接口进行ACL计数,确定丢包点是否为核心,如果丢包点是核心,则进一步排查核心丢包原因,如果丢包点在上联进方向或下联进方向则进一步排查对应上下联设备的丢包原因。 a.AP ping AC计数结果表明,AC正常回包,核心正常接收到AC回包,但未从下联口送出 b.AC ping AP计数结果表明,AC正常发包,核心正常接收到AC发包,但未从下联口送出   基本明确AP与AC之间的通信报文中断是发生在核心设备,进一步排查核心。 排查送错接口的可能性   show log中没有异常日志。   检查前往AP的路由是否正确以及核心上是否有AP的arp,确认三层通信基本条件能否满足。   通过show ip ref exact-route 2.2.2.2 10.145.4.127 以及show arp,确认路由转发的出接口正确,arp学习正确,在三层表项层面可以排除送错接口的可能性,进一步明确是设备上丢包。 明确设备上丢包位置 ……
<<上一篇
下一篇>>