H3C网管交换机单板状态异常故障

1. 故障描述
• 单板状态异常(比如执行 display device 命令查看单板状态为 Absent、Fault 等)。
• 单板出现异常重启、无法启动或不断重启等。
2. 常见原因
本类故障的常见原因主要包括:
• 单板安装不到位。
• 单板损坏。
• 单板面板的指示灯点亮异常。
• 电源模块故障。
• 电源模块输出功率不足。
• 主机软件版本不支持使用该单板。
• 主控板非正常工作状态。
• 业务板、备用主控板或网板与主用主控板的设备标识不一致。
• 业务板启动前网板不在位或网板状态异常。
3. 故障分析
单板状态异常故障诊断流程图
4. 处理步骤
• 单板状态 Absent
(1) 确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。重新插入前务必检查单板的连接器状态,看连接器是否变形、脏污。
(2) 将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。
(3) 检查单板面板的指示灯是否点亮。
(4) 确认电源模块输出功率是否充足。比如增加电源模块,看该单板状态是否恢复正常。
(5) 确认主机软件版本是否支持该单板。
a. 通过 display version 命令查看主机软件版本;
b. 联系技术支持,确认当前主机软件版本是否支持该单板;
c. 如果当前软件版本不支持该单板,请升级到正确版本,版本升级前务必确认新版本可以兼容其它单板。
(6) 如果单板是主控板,连上 Console 口配置电缆后,使用尖细工具(如笔尖)按单板上的系统复位键(RESET)或通过 reboot slot slotid force 命令重启单板,查看配置终端上的显示的启动信息是否恢复正常(配置终端无显示或显示乱码均为异常情况),同时查看单板状态指示灯是否恢复正常。
(7) 如果单板是带有 Console口的交换网板,连上 Console口配置电缆后,通过执行 reboot slot  slotid force 命令或拔出该单板重新插入设备来重启单板,查看配置终端上的显示信息是否恢复正常,同时查看单板状态指示灯是否恢复正常。
(8) 如果单板是业务板,请先确保主控板处于正常工作状态,确保子卡连接器没有变形、脏污。
(9) 如确认为单板故障,请更换单板,收集如下信息,并联系H3C技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。

• 单板状态 Power-off。
(10) 确认设备环境是否存在过温下电,部分产品支持通过 display power-supply 命令查看是存在环境温度过高,单板被下电的记录。比如单板的供电状态“Status”为“off”表示单板由于用户操作或过温保护等原因被主动下电。
如果确认是过温下电,请排查环境单板槽位是否插满,如果单板槽位已插满单板或者挡风板,请通过命令 display fan 确认风扇工作是否正常,风扇状态为 Normal 表示风扇正常工作,
如不正常,或确认单板存在电源故障,请收集如下信息,并联系H3C技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。

• 单板状态 Fault。
(11) 检查整机功耗,整机功耗不够时,单板会进入 fault 状态。
(12) 等待一段时间(大约 10 分钟左右)确认下单板是一直 Fault 还是 Normal 后又再次重启。如单板是 Normal 后又自动重启,请收集如下信息,并联系H3C技术支持人员。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
(13) 如果单板是主控板、带串口网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
readed value is 55555555 , expected value is aaaaaaaa
DRAM test fails at: 080ffff8
DRAM test fails at: 080ffff8
Fatal error! Please reboot the board.
(14) 将单板放到别的槽位,进一步确认是不是槽位故障。
(15) 如确认为单板故障,请更换单板,收集如下信息,并联系技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。

• 单板重启异常
这里的单板重启是指单板出现过重启,而当前单板状态是 Normal。
(16) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行 reboot 重启或进行单板上下电等操作。
(17) display version 命令支持查询单板最近一次重启的原因。比如“Last reboot reason”表 示单板最近一次重启原因是设备上电。
(18) 如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电, 电源进线是否插稳、是否出现松动。
(19) 确认日志中重启时有无出现类似“Warning: Standby board on slot 1 is not compatible with master board.”或“Warning: The LPU board on slot 1 is not compatible with MPU board.” 提示信息,这种情况是业务板、备用主控板或网板与主用主控板的设备标识不一致,请联系 技术支持人员更换。
(20) 如无法确认,请收集如下信息,并联系H3C技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。

 

 

ICP备案号:晋ICP备18007549号-1
站长微信:15534641008