锐捷N18K 线卡异常重启
一、故障现象描述
4.28号开始,全校网络频繁出现中断问题,现场技术人员排查发现上行接口1/5/14口频繁出现UP/DOWN情况 ,导致网络异常。
二、故障排查分析
-
通过分析现场日志发现1/5线卡频繁出现离线上线情况,由于学校的出口以及VSL链路均在此卡上,所以此刻异常会导致VSU分裂以及出口异常。而引起Slot 1/5 频繁上下线的原因是设备温度超过shutdown温度导致的。日志信息如下:
“%DEV_MONITOR-1-CARD_TEMP_OVERFLOW: The temperature of card in slot 1/5 is over danger value, it will be controlled to shutdown automatically”然后1/5线卡被下电。“*Apr 28 13:43:28: %DEV_MONITOR-1-CARD_POWER_OFF: Card in slot 1/5 is powered off.”
-
查看1/5下线卡的温度情况,发现Mac芯片超过了shutdown温度100度,所以会频繁重启。截图如下:
-
进一步排查影响设备温度的因素,观察设备风扇、温度、电源以通风口正常,用手触摸设备不烫。通过沟通现场机房空调不是特别好,机房温度有27度左右。初步判断导致此线卡Mac芯片温度高的原因是环境温度过高以及此线卡数据转发过多导致的;
-
由于处于同一个运行环境中的主机上的其他线卡以及备机上的线卡的Mac温度相对于1/5线卡来说要低的多,需要升级进一步判断下1/5线卡是否存在元器件老化或是损坏;
-
研发通过调整风扇转速等级测试1/5线卡Mac芯片是存在问题,通过调整风扇等级为7,通过观察发现温度降到72度左右,业务维持正常。研发判断温度可以降低说明Mac芯片大概率没有硬件问题。但是温度依然很高,研发怀疑线卡内部有灰尘或是散热器存在问题,需要进一步排查。截图如下:
-
根据研发建议输出下一步计划:(未进行)
针对Slot 1/5线卡温度过高的排查:
1.现场进行主备切换,将业务切换到备机上,观察业务使用情况。
① 下行业务均需要双上线线路
② 检查业务正常使用
2.在Slot 3上增加一条vsl链路,观察VSU状态
3.拔出Slot 1/5线卡
① 观察线卡灰尘情况,进行清灰
② 检查一下散热器,有条件的话重新涂抹一下导热硅脂
③ 观察下Slot 1/5 槽内部是否有灰尘情况以及整个机框的内部积灰情况
-
客户整改完成机房控温系统后,设备转速5级,设备温度维持在68度左右,反馈1/5线卡没有再出现重启现象。现场业务运行正常。
-
针对我司提供的进一步检测1/5线卡内部情况,客户表示不需要进行,目前设备温度属于正常范围。同时,现场也不允许断网;
三、故障根因说明
导致上行接口1/5/14频繁UP/DOWM的原因是1/5线卡Mac芯片温度超过了100度,设备执行重启动作。而导致设备Mac芯片温度过高的原因是机房环境温度过高以及此线卡数据转发过多共同导致的。
四、故障解决方案
客户整改机房控温系统。
五、故障总结
1.技术原理总结:
软件定义设备温度超过100度设备会自动重启;
2.信息收集总结:
show ver
show ver slot
show tem
show fan
show power
show log re
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/2608.html
来源:CNESA
文章版权归作者所有,未经允许请勿转载。
THE END
0
二维码
打赏
海报
锐捷N18K 线卡异常重启
一、故障现象描述
4.28号开始,全校网络频繁出现中断问题,现场技术人员排查发现上行接口1/5/14口频繁出现UP/DOWN情况 ,导致网络异常。
二、故障排查分析
通过分析现场日志发现1/5线卡频繁出现离线上线情况,由于学校的出口以及VSL链路均在此卡上,所以此刻异常会导致VSU分裂以及出口异常。而引起Slot 1/5 频繁上下线的原因是设备温度超过shutdown温度导致的。日志信息如下:
“%DEV_MONITOR-1-CARD_TEMP_OVERFLOW: The temperature of card in slot 1/5 is over danger value, it will be controlled to shutdown automatically”然后1/5线卡被下电。“*Apr 28 13:43:28: %DEV_MONITOR-1-CARD_POWER_OFF: Card in slot 1/5 is powered off.”
查看1/5下线卡的温度情况,发现Mac芯片超过了shutdown温度100度,所以会频繁重启。截图如下:
进一步排查影响设备温度的因素,观察设备风扇、温度、电源以通风口正常,用手触摸设备不烫。通过沟通现场机房空调不是特别好,机房温度有27度左右。初步判断导致此线卡Mac芯片温度高的原因是环境温度过高以及此线卡数据转发过多导致的;
由于处于同一个运行环境中的主机上的其他线卡以及备机上的线卡的Mac温度相对于1/5线卡来说要低的多,需要升级进一步判断下1/5线卡是否存在元器件老化或是损坏;
研发通过调整风扇转速等级测试1/5线卡Mac芯片是存在问题,通过调整风扇等级为7,通过观察发现温度降到72度左右,业务维持正常。研发判断温度可以降低说明Mac芯片大概率没有硬件问题。但是温度依然很高,研发怀疑线卡内部有灰尘或是散热器存在问题,需要进一步排查。截图如下:
根据研发建议输出下一步计划:(未进行)
针对Slot 1/5线卡温度过高的排查:
1.现场进行主备切换,将业务切换到备机上,观察业务使用情况。
① 下行业务均需要双上线线路
② ……
共有 0 条评论