锐捷设备模块识别异常排查SOP

一、故障现象

设备的业务模块、引擎模块及电源模块、风扇模块不能正常识别

二、可能原因

线卡识别异常:
  1. 线卡没有安装到位
  2. 电源功率不足,导致线卡无法上电
  3. 非设备/引擎适配的线卡型号
  4. 线卡在对应版本不能使用
  5. 温度超过危险值,板卡被下电
  6. 线卡或引擎之间版本不一致,导致无法识别
  7. 线卡主程序丢失
  8. 模块硬件故障
  9. 机框硬件故障
电源模块识别异常:
  1. 电源插座与电源线的连接松动、电源模块与电源线的连接松动导致供电异常
  2. 电源模块没有安装到位
  3. 绝大部分设备电源模块不能混插,是否混插
  4. 是否设备支持的电源模块
  5. 电源模块硬件故障
  6. 电源插座供电异常
  7. 机框硬件故障
风扇模块识别异常:
  1. 电源功率不足,导致风扇模块无法供电
  2. 风扇模块没有插好
  3. 风扇模块及槽位存在积灰,导致识别异常
  4. 机框硬件问题
  5. 风扇硬件问题

三、故障排查步骤

在故障排查前,需要了解清楚故障发生的背景,如模块是使用过程中出现的故障还是新购买的设备出现的故障,一般情况下,新设备出现硬件故障的概率较小,重点需要检查操作/环境问题。

线卡识别异常

步骤一:查看线卡是否安装到位,新设备无法识别可以尝试重新拔插线卡
步骤二:查看整机的电源功率是否足够:show power中查看free-power是否满足对应线卡正常使用的功率要求
步骤三:确认该线卡是否主机/引擎/FE卡适配的线卡类型
  1. 如18K的D I 和 D III 交换模块就不支持 CB 系列业务模块;N18014不支持M18000-48GT-P-ED,具体可查阅设备的硬件安装手册。
步骤四:查看该型号线卡是否在当前设备版本适用
  1. 如18K的B4P3版本就不支持DC线卡,具体可查阅版本发行说明-硬件支持情况

步骤五:检查线卡和引擎的版本是否一致
  1. 若线卡和引擎的版本不一致,此时也可能会导致线卡识别异常
  2. 恢复方式:设备上执行upgrade+当前引擎版本,执行完毕后show upgra status,等状态变为success后,将对应的异常线卡进行拔插升级版本。
步骤六:检查当前环境温度是否正常
  1. 若温度过高,触发温度保护,板卡将会被下电,show temperature 查看设备温度是否正常
步骤七:console接入线卡查看日志及格式化线卡
  1. 若执行完上述操作后,线卡仍无法识别,可以将console线接入线卡(波特率9600,此时需要线卡插在机框上,建议找一个上下/左右有空间的槽位插卡,方便插入console线),线卡console口位置如图:
    接入console后查看是否有回显,正常线卡会打印如下类似的log,若没有任何回显,则直接进行下一步,若有回显,此时可以内存自检和格式化flash。
  2. 内存自检:console线插板卡,一直按ctrl + T,然后选择3.memory-check ,如果提示failed,基本可以判断是硬件问题
  3. 格式化线卡操作:
      1. 按ctrl+c进入uboot界面
      1. 输入4,即选择4.Scattered utilities.
      1. 输入3,即选择3.Advanced settings.
      1. 输入4,即选择4.Format flash filesystem.
    1. 格式化故障板卡的文件系统结束后,重新插拔下故障板卡,等待一两分钟后,如果出现多个#####的字符输出时,则表示升级成功,需要输入(y/n)时,输入y
步骤七:替换测试
  1. 识别不到的线卡插入别的槽位,观察是否可以识别,若可以识别,则尝试替换其他正常的线卡到故障卡之前的槽位,若正常线卡在该槽位也无法识别,则为机框硬件故障;若识别不到的线卡插入其他槽位,仍然无法识别,则为线卡硬件故障。

风扇模块识别异常

步骤一:检查风扇当前状态
  1. show fan 查看风扇状态是否为line fail或无任何显示,正常情况下为ok状态(注:若S710E的12.5(4)B0501出现line fail,可能命中已知问题,需要打补丁或升级版本)
步骤二:检查是否设备适配的风扇模块
  1. 具体可查看硬件安装手册,不同型号支持的风扇模块可能不同。
步骤三:检查电源功率是否足够
  1. show power查看是否有可用的功率。
步骤四:检查风扇模块及槽位是否存在大量的积灰,若积灰严重,需要进行灰尘清理
步骤五:检查风扇模块是否插好及替换测试
  1. 若多次替换测试,该风扇模块均无法识别,其他风扇可正常识别,则为风扇模块单体故障;若多个风扇模块在该槽位均无法识别,在其他槽位都识别正常,则可能为机框硬件问题。

电源模块识别异常

步骤一:检查电源插座和电源线是否插好、电源模块和电源的连接线是否松动
步骤二:检查电源模块是否安装到位,必要时拔出电源模块,检查电源系统背板配合的接插件是否出现松脱现象
步骤三:该电源模块是否设备支持的电源模块型号
  1. 具体可查看硬件安装手册,非设备支持的电源模块,可能会出现以下日志打印“%DEV_MONITOR-5-POWER_NOT_MATCH: Power 1/2 type not match.”,show power可能会显示unknown。
步骤四:检查电源模块是否混插
  1. 目前绝大部分交换机电源模块不支持混插,混插可能会导致部分电源模块识别异常,具体是否支持混插可参考硬件安装手册-电源冗余。
步骤五:检查电源插座是否损坏无法供电,可将电源插头替换到其他供电设备上测试。
步骤六:替换测试
  1. 该电源模块在其他槽位/同型号的其他设备上是否可以识别,若均无法识别,则为电源模块单体硬件故障;若模块在其他槽位/设备上正常,且其他正常的电源模块在该槽位/设备上均无法识别,则为槽位/设备故障。

四、信息收集

show alarm cannot-startup show logging show alarm show power show temperature //待补充

五、总结与建议

  1. 模块识别异常时,最好能够进行替换测试,能快速协助问题定界。
  2. 设备所处环境问题需要重点关注,明确设备是否积灰、现场温度、湿度是否正常。
  3. 排查前需要明确是新模块无法识别还是使用过程中突然无法识别。
  4. 排查时还需要重点关注模块是否设备、版本适配、是否能和其他的模块混插或一起使用。

 

阅读剩余
THE END