锐捷N18007下联终端跨网段ping丢包
一、故障现象描述
场景拓扑

图1:故障拓扑
现象描述
如上图所示,赛事测试机10.80.0.117同网段ping自己的网关10.80.0.254、跨网段ping10.60.10.119和10.255.0.50存在丢包,小包丢包概率较低,大包比如3000字节丢包明显,现场ping97个测试结果为丢包7个,终端只收到了90个包。
二、故障排查分析
-
使用终端10.80.10.117 ping 服务器10.255.0.50复现故障时,在核心交换机的上下联口开启ACL计数,发现ping的问题在核心交换机处被丢弃。

图2:ACL计数配置

图3:下联口调用配置

图4:上联口调用配置
-
终端长ping97个包,在丢包7个后停止,观察ACL计数结果为下联口down-in有收到291个,上联up-out只有发出去270个,其中21个再交换机内部被丢掉(因大包分片,字节好数据经过计算与转终端的多少有差异,但只要观察收发情况即可)。

图5:ping结束计数统计
-
检查交换机故障期间对应日志,异常日志有检测到环路loop日志和2/FE1卡内联口震荡日志:

图6:环路检测异常日志

图7:FE卡内联口异常日志
如上述图6所示,核心有检测到环路但随机被执行了的违例处理,结合现场通网段ping测试一直无丢包,仅是跨网段访问,同时设备的CPU和内存均处于正常水平,排除环路可能。

-
故障疑点聚焦于2/FE1和2/2槽位线卡,同时因现场AGG13口只有一个成员口可用,中午时间将可用的Fo2/2/49线路迁移到其他板卡测试,使用3000字节大包继续进行ping网关和服务器测试,ping780个包后,发现网关无丢包,服务器丢1个包,截图如下,说明判断的疑点方向正确,问题点在2/FE1或2/2上:


-
日志有报内联口震荡,且设备无CPU高和CPU丢包情况,问题点大概率发生在硬件芯片层面,使用ssa命令分别检查2/FE1和2/2线卡,发现2/FE1存在奇偶校验(SER Parity)关键报错,而2/2卡无异常报错,2/FE1卡奇偶校验报错见下图8所示,2/2卡无异常截图见图9所示:

图8:FE卡奇偶校验日志

图9:2/2正常日志截图
三、故障根因说明
奇偶校验错误是由于静电或者电磁干扰造成,如太阳黑子运动、电磁干扰、静电放电等。导致交换芯片内部的表项出现了单个比特位的异常翻转,从而在芯片表项查找转发的时候报错,导致设备异常。
所有芯片厂商已明确奇偶校验问题是芯片固有问题,并非锐捷设备自身软件故障。目前只能不断的通过优化修复机制以最大程度降低概率,但无法彻底避免。
为修复该芯片出现的奇偶校验问题,芯片厂商在新的SDK(Software Development Kit 的缩写,芯片厂商提供的软件开发工具包。)软件版本上引入了SER(SoftErrorRecovery的缩写,奇偶校验软错误修复。)修复机制,该修复机制在芯片内的表项数据维护一份软件缓存,当芯片检测到奇偶校验错误时,触发中断处理函数进行处理,将缓存内正确的内容重新写回芯片硬件中。但该SER修复机制并非100%能修复成功,只能一定程度降低故障率。
四、故障解决方案
客户端通过升级到N18000_RGOS 11.0(4)B58P5, Release(10180613)版本解决。
五、故障总结
-
出现奇偶校验可以通过拔插2/FE1线卡观察能否恢复;
-
拔插无法恢复的情况下,协调窗口期将软件版本升级的最新的N18000_RGOS 11.0(4)B58P5, Release(10180613)版本观察,因最新的版本有对奇偶校验做了自我修复校验,有概率会成功修复奇偶校验问题;
-
如果升级版本后问题依旧,只能将该2/FE1线卡更换处理。
阅读剩余
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2602.html
文章版权归作者所有,未经允许请勿转载。
THE END