锐捷设备模块识别异常排查SOP
一、故障现象
设备的业务模块、引擎模块及电源模块、风扇模块不能正常识别
二、可能原因
线卡识别异常:
-
线卡没有安装到位
-
电源功率不足,导致线卡无法上电
-
非设备/引擎适配的线卡型号
-
线卡在对应版本不能使用
-
温度超过危险值,板卡被下电
-
线卡或引擎之间版本不一致,导致无法识别
-
线卡主程序丢失
-
模块硬件故障
-
机框硬件故障
电源模块识别异常:
-
电源插座与电源线的连接松动、电源模块与电源线的连接松动导致供电异常
-
电源模块没有安装到位
-
绝大部分设备电源模块不能混插,是否混插
-
是否设备支持的电源模块
-
电源模块硬件故障
-
电源插座供电异常
-
机框硬件故障
风扇模块识别异常:
-
电源功率不足,导致风扇模块无法供电
-
风扇模块没有插好
-
风扇模块及槽位存在积灰,导致识别异常
-
机框硬件问题
-
风扇硬件问题
三、故障排查步骤
在故障排查前,需要了解清楚故障发生的背景,如模块是使用过程中出现的故障还是新购买的设备出现的故障,一般情况下,新设备出现硬件故障的概率较小,重点需要检查操作/环境问题。
线卡识别异常
步骤一:查看线卡是否安装到位,新设备无法识别可以尝试重新拔插线卡
步骤二:查看整机的电源功率是否足够:show power中查看free-power是否满足对应线卡正常使用的功率要求

步骤三:确认该线卡是否主机/引擎/FE卡适配的线卡类型
-
如18K的D I 和 D III 交换模块就不支持 CB 系列业务模块;N18014不支持M18000-48GT-P-ED,具体可查阅设备的硬件安装手册。

步骤四:查看该型号线卡是否在当前设备版本适用
-
如18K的B4P3版本就不支持DC线卡,具体可查阅版本发行说明-硬件支持情况

步骤五:检查线卡和引擎的版本是否一致
-
若线卡和引擎的版本不一致,此时也可能会导致线卡识别异常
-
恢复方式:设备上执行upgrade+当前引擎版本,执行完毕后show upgra status,等状态变为success后,将对应的异常线卡进行拔插升级版本。
步骤六:检查当前环境温度是否正常
-
若温度过高,触发温度保护,板卡将会被下电,show temperature 查看设备温度是否正常
步骤七:console接入线卡查看日志及格式化线卡
-
若执行完上述操作后,线卡仍无法识别,可以将console线接入线卡(波特率9600,此时需要线卡插在机框上,建议找一个上下/左右有空间的槽位插卡,方便插入console线),线卡console口位置如图:接入console后查看是否有回显,正常线卡会打印如下类似的log,若没有任何回显,则直接进行下一步,若有回显,此时可以内存自检和格式化flash。
-
内存自检:console线插板卡,一直按ctrl + T,然后选择3.memory-check ,如果提示failed,基本可以判断是硬件问题
-
格式化线卡操作:
-
-
按ctrl+c进入uboot界面
-
-
-
输入4,即选择4.Scattered utilities.
-
-
-
输入3,即选择3.Advanced settings.
-
-
-
输入4,即选择4.Format flash filesystem.
-
-
格式化故障板卡的文件系统结束后,重新插拔下故障板卡,等待一两分钟后,如果出现多个#####的字符输出时,则表示升级成功,需要输入(y/n)时,输入y
-
步骤七:替换测试
-
识别不到的线卡插入别的槽位,观察是否可以识别,若可以识别,则尝试替换其他正常的线卡到故障卡之前的槽位,若正常线卡在该槽位也无法识别,则为机框硬件故障;若识别不到的线卡插入其他槽位,仍然无法识别,则为线卡硬件故障。
风扇模块识别异常
步骤一:检查风扇当前状态
-
show fan 查看风扇状态是否为line fail或无任何显示,正常情况下为ok状态(注:若S710E的12.5(4)B0501出现line fail,可能命中已知问题,需要打补丁或升级版本)
步骤二:检查是否设备适配的风扇模块
-
具体可查看硬件安装手册,不同型号支持的风扇模块可能不同。
步骤三:检查电源功率是否足够
-
show power查看是否有可用的功率。
步骤四:检查风扇模块及槽位是否存在大量的积灰,若积灰严重,需要进行灰尘清理
步骤五:检查风扇模块是否插好及替换测试
-
若多次替换测试,该风扇模块均无法识别,其他风扇可正常识别,则为风扇模块单体故障;若多个风扇模块在该槽位均无法识别,在其他槽位都识别正常,则可能为机框硬件问题。
电源模块识别异常
步骤一:检查电源插座和电源线是否插好、电源模块和电源的连接线是否松动
步骤二:检查电源模块是否安装到位,必要时拔出电源模块,检查电源系统背板配合的接插件是否出现松脱现象
步骤三:该电源模块是否设备支持的电源模块型号
-
具体可查看硬件安装手册,非设备支持的电源模块,可能会出现以下日志打印“%DEV_MONITOR-5-POWER_NOT_MATCH: Power 1/2 type not match.”,show power可能会显示unknown。
步骤四:检查电源模块是否混插
-
目前绝大部分交换机电源模块不支持混插,混插可能会导致部分电源模块识别异常,具体是否支持混插可参考硬件安装手册-电源冗余。
步骤五:检查电源插座是否损坏无法供电,可将电源插头替换到其他供电设备上测试。
步骤六:替换测试
-
该电源模块在其他槽位/同型号的其他设备上是否可以识别,若均无法识别,则为电源模块单体硬件故障;若模块在其他槽位/设备上正常,且其他正常的电源模块在该槽位/设备上均无法识别,则为槽位/设备故障。
四、信息收集
show alarm cannot-startup show logging show alarm show power show temperature //待补充
五、总结与建议
-
模块识别异常时,最好能够进行替换测试,能快速协助问题定界。
-
设备所处环境问题需要重点关注,明确设备是否积灰、现场温度、湿度是否正常。
-
排查前需要明确是新模块无法识别还是使用过程中突然无法识别。
-
排查时还需要重点关注模块是否设备、版本适配、是否能和其他的模块混插或一起使用。
阅读剩余
版权声明:
作者:SE_You
链接:https://www.cnesa.cn/3008.html
文章版权归作者所有,未经允许请勿转载。
THE END