-
锐捷N18K有线核心网络卡顿且丢包
一、故障现象描述 终端跨有线核心访问监控区域的摄像头地址存在严重丢包,终端上访问摄像头的管理页面白屏,无法正常显示。 将一台测试PC接在摄像头所在的交换机下,跨核心ping测试PC,ping常规74字节长的ping包无丢包,ping数据长度为1400字节的报文则丢包情况非常严重,丢包率30%以上。 二、故障排查分析 1、确认丢包点 排查动作 故障现象只有ping长度较长的报文时存在丢包,为一次性确认丢包点,需要执行以下排查动作: 在核心、汇聚、接入设备上报文的进出接口配置ACL计数,统计ping包的接收和发送数量。 汇聚侧PC和摄像头所在接入上的测试PC互ping50个长度为1400的报文,期间两台PC同时抓包。 排查结果 ACL计数结果表明,核心、汇聚、接入设备上报文的进出接口和进出方向的计数结果均为50,未发生收发丢包。 两端PC上抓取到的request报文和reply报文数量都是50个,说明request、reply报文均未在设备传输过程丢包。 终端收到的reply报文中,部分存在ICMP checksum error,且checksum错误的报文数量与ping丢包显示“请求超时”的数量一致。 对比原始发出的reply报文和终端接收到的reply报文,发现ICMP data字段内容发生了变化 丢包点排查结果分析 从排查结果可以看出,丢包没有发生在网络设备上,丢包原因是reply报文内容在传输过程中发生了变化,被接收报文的终端PC判断为非法报文而丢弃,产生了丢包现象。需要进一步排查报文内容在传输过程中发生发生错误的原因。 2、ICMP data字段内容错误原因分析 因为报文内容发生变化的位置是ICMP data字段,该字段属于报文的载荷内容,传输路径中报文经过的设备都是交换机,交换机在传输过程中是没有业务组件会对报文载荷内容其进行修改或调整,所以可排除业务组件对报文处理错误导致的ICMP data字段内容错误。会导致ICMP data字段内容发生变……
SE_You 2024-12-1611 0 0 -
锐捷S7805C 直连S29 ping丢包
一、故障现象 交换机作为网络核心设备,新部署的S7805C与S29互ping存在丢包现象。 场景拓扑如下 二、故障排查分析 通过acl计数,发现S29 ping S78,S78收到并且发出5个包,此时S29仅收到一个包,而S78 ping S29,S78发出5个包,但此时S29未收到包,可以判断丢包点是在S78设备丢包或者是物理链路上丢包; 判断两端接口不存在drop、crc问题,并且接口光衰均正常。排除接口链路问题; 替换测试验证设备接口是否故障,同根链路同个模块,替换到S78的te1/2/28口正常不丢包,接回S78的te1/1/28口丢包。判断是S78设备的单点接口故障; 从上述排查中有一个异常点:S78的te1/1/28口存在丢包,但第一步判断丢包点的acl计数操作可以匹配到出接口的发出方向的流量。说明故障位置是在ACL过滤以后的组件上,怀疑是流量送到设备cpu处理后,acl计数的顺序在送cpu处理之前,导致被接口的acl计数匹配中。因此进一步分析线卡异常,根据收集的线卡的死机信息,明确该线卡存在大量故障期间的exception,exception信息“ERROR L2C_INT_REG[BIGWR]: Write reference past L2C_BIG_CTL[MAXDRAM] occurred”,此信息说明线卡存在L2C硬件 L2C_INT_REG访问芯片寄存器执行写操作异常,引发exception。 打印以下log是在CPU出现以下几种情况:sec_err,ded_err,rem_fault,loc_fault,均属于线卡CPU器件。 综上,可以说明线卡CPU异常,判断线卡存在硬件故障。 三、故障根因说明 当前S78设备的2线卡CPU 寄存器写操作异常,导致控制面报文处理异常,产生设备发包丢包,属于硬件故障问题,需要维修设备。 四、故障解决方案 线卡CPU异常,判断线卡存在硬件故障,建议客户走寄送修流程。 寄送修指南:微信公众号“锐捷服务”--“服务支持”--“自助保修”中自行保修。
SE_You 2024-12-138 0 0 -
锐捷S6120 内网偶发丢包
一、故障现象描述 2023 年9 月10 日,某医院反馈内网网络频繁中断异常问题,主要集中表现在一号楼急诊以及检验科,一天出现两三次网络中断,显示连不上服务器,网络中断时间不固定且故障时间一般为一两分钟,一两分钟后恢复网络正常,影响医务人员正常办公使用。 设备型号:S6120-48XS8CQ 设备版本:S6120_RGOS 11.0(5)B13 拓扑图: 二、故障排查分析 针对异常的中断的电脑开启与服务器的PING连通性测试,明确异常时间段确实存在持续性丢包问题。 核心接入汇聚进行ICMP的ACL计数,明确异常时间段,设备未将报文发送至网卡(点①可以看到PC上发出2635个报文,接入上进行ACL计数收到2623个报文,中间少了12个报文)。 进一步对终端报文进行分析(异常时间段PC一直发出ARP请求未得到应答),发现对应电脑ICMP未发送网卡是由于异常时间段未学习到网关的ARP信息,结合对应时间段报文,明确PC发出的ARP报文未得到应答导致无法正常进行ICMP报文封装。 异常时间段PC上通过arp –a核查,明确为网关ARP未学习到导致报文发送异常; 通过ACL计数针对ARP报文转发情况进行核查,异常时间段,汇聚与核心针对ARP报文均有转发异常情况(6120下行口收到422个报文,上行口转发出去391个报文,上行口收到385个报文回来,说明:1、6120 ARP报文转发少了31个 2、18X少回6个ARP报文)。 18X与S6120两端同时出现异常大概率是链路上存在异常,核查汇聚底层交换机日志,发现异常时间点存在接口异常down现象(AGG 54为汇聚上行聚合口)。 抓取对应故障时间段核心日志(捞取底层所有日志后进行过滤),明确对应核心18X RLDP惩罚接口,导致对应汇聚聚合口down。 针对RLDP检测异常的接口进一步核查(针对核心RLDP阻塞端口逐层进行核查),发现对应汇聚交换机下存在多个接口频繁震荡,且存在大量CRC错帧(t……
SE_You 2024-12-126 0 0 -
锐捷设备网络中断故障排查SOP
一、故障现象 客户现场网络新部署或者部署完使用中出现网络中断,无法上网现象。 二、组网拓扑 常规网络拓扑如下: 拓扑描述: PC通过接入、汇聚交换机连接到核心,PC的网关在核心上,核心往上通过安全设备,路由器连接到外网。 三、可能原因 PC未学习到网关的arp; 网络环境里存在环路等异常; 交换机上有相关配置进行了拦截导致; 安全设备有策略拦截导致; 四、故障排查步骤 步骤一:定界异常节点 终端上通过tracert外网地址如www.baidu.com.cn看回显的最后一跳是什么设备的地址(若是手机终端需要下载wifi魔盒进行测试),若最后一跳是安全设备或者路由器协调对应工程师排查,若是网关交换机则往下排查; 终端上ping 网关交换机地址以及交换机下一跳地址再次明确断点,看是否ping交换机和下一跳都不通;(可能关闭了tracert功能); 若ping交换机不通,则检查终端是否有网关的arp,终端侧cmd输入arp-a查看是否有网关arp,若无网关arp按下列步骤二排查,若有网关arp按下列步骤三排查,若ping交换机通按步骤四排查; 步骤二:排查学不到网关arp原因 若无网关arp则需要通过arp计数明确arp报文转发情况;ARP计数 定位到arp转发异常的设备后 通过show version检查设备VSU主备机,引擎与线卡软件版本是否一致; 通过show run int xxx查看上下联端口的配置,看是否有相关安全配置若有需要检查是否有拦截 若接口下有调用acl,需要查看具体acl条目检查是否有ace会拦截arp报文; 若接口下关闭了arp学习(准入管控),需要检查是否准入通过; 若接口下开启了端口安全,需要检查是否有相关安全表项以及表项是否正确; 通过show run检查全局相关配置是否有异常; 若全局有调用acl,需要查看具体acl条目是否有拦截arp报文; 若全局有配置of controller ip xxx需要检查当前版本是否是方……
SE_You 2024-12-1115 0 0 -
锐捷S86E交换机下联终端无法ping通网关
一、故障现象 大量的终端出现ping网关地址时通时不通的情况。 网络拓扑如下: 二、设备型号和版本 设备型号:S8610E 软件版本号:B19P2 三、故障排查思路 ping不通时首先要定位丢包点在哪个设备上; 出现丢包可能的原因: 原因一:终端硬件或软件收到报文没有发出 原因二:出现环路同一个mac地址从其他的接口收到,导致转发路径不正确 原因三:出现广播风暴,或者设备被大量异常报文攻击,导致CPP出现丢包 四、故障排查过程 1、首先判断ping不通的报文被丢在哪个设备上,在C校区汇聚上我们发现不通的终端从两个接口学到了同一个vlan地址,确定丢包点是在S86E上。 2、需要定位为什么会出现从两个接口学到同一个mac,首先确认终端mac地址应该要从哪个接口上来。3/7接的上联N18K,3/1接下联的接入交换机,终端正常应该要从3/1进行学习现在从N18k上也学习到了mac,从ACL计数也确认了有收到从N18发来的源为这mac地址的报文。 3、现在的话需要判断,报文为什么会从N18K上发出。这种情况,怀疑点偏向环路问题导致,下一步可以先排查现网环境是否有出现环路情况。 N18K上开启了RLDP后发现有在A区的下联的一个接口有出现vlan 125的环路告警。 4、最后是发现了A区下的一个VLAN 125的终端有接两根网线在同一个接入交换机上出现了这个,将这个环路排查完后,业务恢复正常。 5、为什么C区的问题在A区会出现故障现象? 1)C区的终端发出一个不属于网关地址的ARP广播报文。 2)N18K收到这个报文后会向所有属于VLAN 125的接口进行报文的泛洪,当报文泛洪到A区后。 3)因为A区有出现环路的情况,导致报文从A区发出后在下面的环路里面绕了一圈重新发到了N18K上。 4)当N18K从A区收到了刚刚从C区收到的广播报文但不是请求本地地址时候。 5)会向其他接口泛洪,导致A区接口也发出了这个广播报文,A区汇聚从N18K的……
SE_You 2024-12-1027 0 0 -
锐捷N18014 上联华为ping不通下联终端
一、故障现象 一开始vlan 2972的网关是在18k上,使用正常,后将vlan 2972的网关上移到18k上联华为之后,发现华为无法学习到下联终端的arp信息。 网络拓扑如下: 二、设备型号和版本 设备型号:N18014 软件版本:N18000_RGOS 11.0(4)B56, Release(06241802) 三、故障排查步骤 首先通过arp计数明确下arp报文的丢包点; 明确到对应丢包点之后排查对应丢包原因; 四、故障排查过程 在18k上做acl计数,下联口可以正常收到终端的arp报文,但是没有从上联华为的接口转发出去,说明丢包点在18k上; 查看18k的配置,发现vlan 2972网段有配置免认证站点,且加了arp,加了之后该网段的arp报文会被交换机上送cpu处理,从而不会转发; 故障原因总结:通过上述分析,定位故障原因为配置问题。由于18k上的vlan 2972的网段配置了免认证站点,且加了arp选项,导致该网段的arp报文会上送cpu处理,从而不会转发。 五、解决方案 该故障可通过修改免认证站点的配置解决,命令如下 把http redirect direct-site 172.23.83.0 255.255.255.0 arp修改为 http redirect direct-site 172.23.83.0 255.255.255.0
SE_You 2024-12-096 0 0 -
锐捷S2910-E 下联终端无法ping通网关
一、故障现象 客户需要使用我司S2910-48GT4XS-E交换机做傻瓜机,发现PC去ping S29交换机正常,PC设备ping不通上联网关,无法学习到ARP。 网络拓扑如下: 二、设备型号和版本 设备型号:S2910-48GT4XS-E 设备版本:S29_RGOS 11.4(1)B56P1, Release(08241312) 三、故障排查步骤 确认设备是否是空配置,删除config.text后重启当作傻瓜机; 查看是否有什么配置限制; 做acl计数确认丢包点; 四、故障排查过程 pc去ping S29正常,S29去ping网关正常,pc去ping网关不通; S29替换成其他设备正常,由B51升级版本到B56P1故障依旧; 抓取S29设备上联报文,发现S29未传输pc的arp报文; 做针对arp的acl计数,确认S29有收到pc的arp广播报,但是未从上联口发出; 设备做傻瓜机以及在svi口配置地址问题依旧,开启debug信息,存在proxy-arp of int vlan 1 is diasble,在svi口下配置arp代理后,可以正常ping通; 设备升级至普适版本后正常ping通; 删除设备配置以及关闭zam,故障依旧; 故障期间收集底层信息,发现不断存在zam初始化的信息; 经过对故障设备的分析判断,由于删除配置文件重启后触发了ZAM(零配置上线功能)执行,该软件版本11.4(1)B56P1是解决方案版本,ZAM在无配置文件启动情况下,会禁止二层转发。 五、解决方案 解决方案:执行write,重启。如不需要ZAM,配置no zam,write后重启 六、故障总结 解决方案版本,导入zam 功能,该功能存在特性: 设备空配置启机,未write或进入config模式,触发执行ZAM,导致二层不转发问题。 在执行ZAM期间不允许存在配置文件,不允许执行write操作,不允许进入config模式。 ZAM执行会触发二层转发问题。
SE_You 2024-12-0610 0 0 -
锐捷S7808C 终端ping网关大包不通
一、故障现象 终端ping 32字节的报文可以通网关,ping 1500字节的大包无法ping通网关。 网络拓扑如下: 二、设备型号和版本 设备型号:S7808C 版本号:S7800C_RGOS 12.3(1)B0202 三、故障排查思路 通过ACL进行丢包点的确认; Debug开启看报文的处理情况; 四、故障排查过程 通过抓包来分析,S7808C的报文都有进行回包,判断是报文被发到终端后被丢弃。 通过内部对故障的复现,定位故障的原因是,S7808C上终端的网关地址上配置MTU 1530,当SVI接口上配置完后,会修改SVI接口的MTU和IP MTU两个数值。 IP MTU是确定分片报文长度的功能。IP MTU的数值大于终端网卡的MTU数值时,会出现S78发出的分片报文大于终端的网卡的MTU导致,终端ping大包的时候出现不通的情况。 S7808C收到分片报文的原理是:S7808C收到分片报文后,会将分片报文重新进行整合成一个报文,再基于交换机的SIV接口的IP MTU重新分片发送出去。 五、解决方案 1、当SVI接口上修改完MTU后,需要再到SIV接口上配置IP MTU数值,且IP MTU的数值和终端网卡的MTU数值要一致,终端不用进行修改。 78: 接入: 2、终端上开启接收巨型帧的功能,让终端可以接收大于网卡MTU的报文。 78: 接入: 终端: 因为部分的终端无法不支持巨型帧的功能,建议使用解决方案一
SE_You 2024-12-057 0 0 -
锐捷S2910E下联终端无法上网
一、故障现象 S2910E下联终端无法上网,ping不通核心网关,把终端所在vlan从1450修改为1455则可以正常上网。 网络拓扑如下: 二、设备型号和版本 设备型号:S2910-48GT4XS-E 软件版本:S29_RGOS 11.4(1)B12P24 三、故障排查步骤 首先看下终端和网关是否有对方的arp; 若有的话看下ping包丢哪了,若没有的话看下arp报文丢哪了; 四、故障排查过程 在终端电脑上通过arp -a查看发现终端没有学到网关10.51.74.254的arp; 在交换机上配置arp计数,发现交换机没有转发终端的arp报文 开启快转,发现终端的arp报文被送到cpu了,正常交换机应该转发终端的arp报文,不应该送cpu的 环境查看并无环路等环境问题; 检查配置,发现vlan 1450的网关地址配置了http的免认证arp,而1455的网关地址没有配置; 配置了http redirect direct-site 10.51.74.254 arp命令之后,设备收到目的地址为10.51.74.254的arp报文会上送cpu处理,从而不会从上联口转发出去,从而导致终端学不到网关的arp,而vlan 1455没有配置,故把终端vlan修改为1455可以正常上网 故障原因总结:通过上述分析,定位故障原因为配置问题。非网关设备正常配置http放通命令时不需要后面跟arp,跟了arp之后报文会上送cpu处理从而不转发,导致arp报文被丢弃。 五、解决方案 把交换机上放通网关http命令后的arp去掉即可 即由http redirect direct-site 10.51.74.254 arp 修改为http redirect direct-site 10.51.74.254 六、故障总结 故障原理总结: 设备上配置http redirect direct-site 10.51.74.254命令时,底层会生成一条放通目的地址为10.51.74.254的fp表项,但是如果配置http redirect direct-site 10.51.74.254 arp命令时不仅会生成一条放通目的地址为10.51.74.254的fp表项,还会生成一条上送cpu的fp表项。
SE_You 2024-12-045 0 0 -
锐捷S3760E 直连无法ping通
一、故障现象 两台S3760E交换机通过agg 1互相直连,都起了svi 21,地址分别为21.118.69.9和21.18.69.8但是互相无法ping通。 网络拓扑如下: 二、设备型号和版本 设备型号:3760E-48 软件版本:10.4(3b19)p3 三、故障排查步骤 首先检查下两台交换机的mac以及arp信息学习是否正常; 若arp无异常,通过计数或者抓包明确下哪个设备转发异常,然后具体定位; 四、故障排查过程 检查两台交换机的arp学习情况,发现有一台交换机学到对端的arp不是从互联的agg 1口学习到,而是从0/34口学习到 故障原因总结:通过上述分析,定位故障原因为环境问题。由于现场存在环路导致一台交换机的arp信息学习错误,从而导致数据包转发错误,互ping不通。 五、解决方案 该故障可通过先把交换机的f 0/34口shut规避,后续排查具体环路情况彻底解决。
SE_You 2024-12-039 0 0
升级版本
评论于 华为2288h v5 对iBMC上报Nand Flash预留块不足10%告警的说明