1. 故障描述
设备转发异常或不断打印 Forwarding fault、Board fault 等提示信息
2. 常见原因
本类故障的常见原因主要包括:
• 交换网板故障。
• 业务板故障。
3. 故障分析
在系统视图下执行 switch-fabric isolate 命令逐块隔离交换网板,(确保交换网板数量大于等于 2,有冗余备份),观察交换网板隔离后故障是否消失。此处以 S12508 产品为例说明网板隔离
步骤,其中 10~18 槽位为网板:
(1) 隔离 10 槽位网板,隔离后等待一段时间,观察故障是否消失。
(2) 执行 undo switch-fabric isolate 命令取消 10 槽位网板隔离,待网板重启 Normal 后,隔离 11 槽位网板并观察故障是否消失。
(3) 按照上面的方法,依次隔离 12~13 槽位网板,直到所有网板隔离确认一遍。
(4) 如果隔离某块交换网板后故障消失,说明该交换网板故障;如果所有交换网板隔离一遍后故障仍存在,那么应该为业务板故障导致。
(5) 建议将业务转移到其它业务板上后更换业务板,更换时注意检查槽位是否吸入异物,如果故障
依然存在,请执行步骤 7。
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
H3C网管交换机业务板在使用中发生重启,无法正常启动
1. 故障描述
业务板运行过程中发生重启,重启后无法正常启动。
2. 常见原因
本类故障的常见原因主要包括:
• 设备切换了工作模式。
• 供电异常。
• 主控板上的启动文件异常。
• 业务板硬件故障。
• 机框槽位硬件故障。
3. 故障分析
4. 处理步骤
(1) 使用 display system-working-mode 命令检查设备当前的工作模式,部分交换机处于不同工作模式下时支持的业务板有所不同,例如对于 S12500G-AF S 系列交换机:
. 标准模式所有单板均可启动;
. 高级模式下仅 SE 系列接口板可以启动;
. 专家模式下仅 SF 系列接口板可以启动。
有关启动限制和设备工作模式的详细介绍,请参见各系列交换机配置指导手册中的“设备管理”。
(2) 检查电源模块工作是否正常。
查看电源模块指示灯是否正常,电源功率是否满足单板正常运行要求。
(3) 检查主控板上的启动文件是否正常。
在任意视图下执行 display boot-loader 命令,查看单板使用的下次启动软件包。在用户视图下执行 dir 命令,查看启动软件包是否存在,如果不存在或者损坏,请重新获取启动软件包或者设置其它软件包作为该单板的下次启动软件包。
(4) 在业务板不能启动的槽位插入能够正常工作的业务板能否正常启动。
如果确认业务板加载的启动文件正常,在条件允许的情况下,在无法正常启动的业务板槽位插入其它能够正常工作的业务板做测试。
如果插入的其它能够正常工作的业务板能启动,则排除主控板和背板故障,请执行步骤(5)。如果插入的其它能够正常工作的业务板也不能启动,请更换主控板。
(5) 检查是否有加载记录。
在任意视图下执行 display logbuffer 命令,检查设备的 logbuffer 中是否有对应槽位单板的加载记录。
如果 logbuffer 中有对应槽位单板的加载记录,请将业务板更换到其他槽位看能否正常启动。如果 logbuffer 中没有对应槽位单板的加载记录,请执行步骤(6)。
(6) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
. 上述步骤的执行结果。
. 设备的配置文件、日志信息、告警信息。
H3C网管交换机业务板无法启动
1. 故障描述
业务板无法启动。
2. 常见原因
本类故障的常见原因主要包括:
• 设备当前的工作模式不支持该业务板。
• 网板工作异常。
• 供电异常。
• 软件版本不支持该业务板。
• 业务板未安装到位。
• 业务板硬件故障。
• 机框槽位硬件故障。
3. 故障分析
4. 处理步骤
(1) 使用 display system-working-mode 命令检查设备当前的工作模式,部分交换机处于不同工作模式下时支持的业务板有所不同,例如对于 S12500G-AF S 系列交换机:
. 标准模式所有单板均可启动;
. 高级模式下仅 SE 系列接口板可以启动;
. 专家模式下仅 SF 系列接口板可以启动。
有关启动限制和设备工作模式的详细介绍,请参见各系列交换机配置指导手册中的“设备管理”。
(2) 检查网板工作是否正常。
确保网板在位且状态为 Normal,如果状态异常,请先排除网板故障。
(3) 检查业务板是否上电。
查看业务板 RUN 指示灯状态,如果指示灯不亮,说明业务板可能没有上电,请按如下子步骤进行定位处理。如果上电正常,请执行步骤(4)。
a. 查看电源模块指示灯,判断电源模块工作是否正常,如果指示灯异常,请参考“电源模块状态异常”章节进行定位处理。
b. 计算整机功耗情况,查看电源剩余功率是否足够,如果功率不足,请增加电源模块。
(4) 检查软件版本是否支持该业务板。
在任意视图下执行 display version,查询设备的软件版本,然后确认当前软件版本是否支持该业务板。如果不支持,请升级到支持此业务板的正确版本。版本升级前请务必确认新版本兼容其它单板。
(5) 拔插业务板。
拉出业务板,检查连接器是否完好,将其重新插入,保证业务板安装到位。
(6) 将业务板安装到其它槽位测试能否启动。
如果更换到其它槽位也无法启动,则可能是业务板故障,请更换新的业务板进行测试。如果更换到其它槽位可以正常启动,请将其它可以正常启动的业务板安装到原故障槽位,如果不能启动,则可能是机箱该槽位故障。
(7) 如果故障仍然未能排除,请收集如下信息,并联系技术支持人员。
.上述步骤的执行结果。
. 设备的配置文件、日志信息、告警信息。
H3C网管交换机主控板备控板倒换故障
1. 故障描述
本类故障常见如下三种情况:
• 用 reboot 命令重启主用主控板时,备用主控板也重启。
• 主、备倒换异常。
2. 常见原因
本类故障的常见原因主要包括:
• 原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板。
• 备用主控板未收到主用主控板的报文而切换成主用主控板。
• 主用主控板自身异常导致重启。
• 主用主控板和备用主控板版本不一致。
3. 故障分析
4. 处理步骤
• 对于用 reboot 命令重启主用主控板时备用主控板也重启,此类故障的处理步骤如下:
(1) 在原主用主控板启动完成后,使用 ftp 或 tftp 命令将存储介质中 logfile 目录下最新的 logfile文件上传到文件服务器。
(2) 查看 logfile 中 reboot 命令日志(类似 Command is reboot slot 0)到上次启动开始(类似SYSLOG_RESTART: System restarted)这段时间是否出现过类似 Batch backup of standby board in slot 1 has finished 字符串。
a. 如果没出现过,则表示是在原备用主控板未启动完成的情况下,因重启主用主控而被动变成主用主控板,这种情况下备用主控重启属于正常现象,无需处理。下次重启前注意确保备用主控板批量备份完成(即已经出现过类似 Batch backup of standby board in slot 1 has finished 日志),再用 reboot slot 命令重启主用主控板。
b. 如果出现过,请联系 H3C 技术支持人员。
• 对于主、备倒换异常,此类故障的处理步骤如下:
(3) 通过 display system stable state 命令收集主用主控、备用主控状态信息:
根据显示信息查看:
a. 双主控的 Role 是否为 Active 和 Standby。
b. 主用主控、备用主控状态是否 Stable。
(4) 通过 display boot-loader 命令收集主用主控、备用主控版本信息,查看主用主控、备用主控版本是否一致。
H3C网管交换机主控板在使用中发生重启,无法正常启动
1. 故障描述
主控板在使用中发生重启,无法正常启动。
2. 常见原因
本类故障的常见原因主要包括:
• 启动文件损坏。
• 主控板内存单元损坏。
• 单板未完全插入或损坏导致 BootWare 运行异常。
3. 故障分析
4. 处理步骤
(1) 检查主控板上的启动文件是否正常
通过 Console 口登录故障主控板,重新启动设备,如果 BootWare 提示 CRC 错误或者找不到启动文件,请重新加载启动文件,并确认 Flash 中文件大小与服务器上的文件是否一致,如不存在或不一致需重新加载启动文件。加载后请设置该文件为当前启动文件(在 BootWare 加载过程中,BootWare 能自动将该文件设置为当前启动文件)。
(2) 测试主控板内存单元是否正常
如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,同时立即按住 CTRL+T,对内存单元进行检测。如果提示内存错误,请更换单板。
(3) 查看 Bootware 是否依旧提示错误
如果内存检查也正常,但 BootWare 启动过程中还有错误提示,则根据相关提示初步判断发生故障的器件。检查单板是否插牢。如已插牢则更换单板。
(4) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系 H3C 技术支持
H3C网管交换机主控板无法启动
1. 故障描述
原有主控板或新加入设备的备用主控板无法启动。
2. 常见原因
本类故障的常见原因主要包括:
• 主控板卡硬件故障导致无法上电。
• 主控板卡 BootWare 基本段损坏。
• 内存或 CPU 硬件故障导致 BootWare 无法运行。
• 启动文件丢失、校验失败、与硬件不匹配。
• 备用主控板和原主控板的型号不一致。
• 备用主控板和原主控板的软件版本不一致。
3. 故障分析
原主控板无法启动故障诊断流程图
新加入设备的备用主控板无法启动故障诊断流程图
4. 处理步骤
• 原主控板无法启动故障的处理步骤如下:
(1) 查看主控板运行灯(RUN 灯)是否点亮
BootWare 基本段启动后,会立刻将运行灯置成快闪,所以这是判断系统能否启动的重要标志。
分以下几种情况处理:
a. 情况 1:运行灯快闪
如果设备上电后运行灯以 4Hz 频率快闪,说明基本段启动正常,则进行步骤 2。
b. 情况 2:运行灯不亮
若运行灯没有点亮,有两个可能:设备不能上电;BootWare 基本段被破坏。
先判断设备是否上电。从主控入风口正面观察,主控板内部是否有绿色闪灯或者常亮灯,也可以经过一段时间后,拔出主控板,检验 CPU 上的散热片是否有热度。如果没有上电,则检查供电、电源模块,设备硬件故障也可能导致主板不能上电。
如果设备上电正常,则应该是 BootWare 基本段被破坏,需要返厂处理。
注:
• 这里所说的运行灯不亮,是指上电后从来没亮过,如果开始闪了一会儿(超过 5 秒)后续又灭的,则不算此情况。
• 一上电运行灯就常亮或慢闪(1Hz 频率)是基本不可能的,若出现则为硬件故障。
• 此处指示灯状态仅表示大多数主控板的情况。
(2) 检查 Bootware 是否运行成功
a. 情况 1:基本段运行成功
b. 情况 2:没有任何输出信息
如果上电后打印类似下面信息,则可能是内存条有问题,可检查是否有插紧,或尝试更换内存条。也有可能是内存通道的硬件电路出现问题,请联系 H3C 技术支持。
(3) 查看加载启动文件是否正常
a. 情况 1:启动文件加载、解压成功
b. 情况 2:启动文件不存在
c. 情况 3:启动文件 CRC 错误
(4) 检查启动文件启动过程
a. 情况 1:没有 System 包,系统启动之后进入 boot 界面
Loading the main image files…
Loading file flash:/S12500R-CMW910-SYSTEM-D5202P14.bin…………………. ……………………………..Done.
<boot>
这种情况,需要重新下载软件版本
b. 情况 2:System image is starting…,一直挂死
c. 情况 3:System image is starting…,未进入命令行,反复重启
d. 情况 4:提示 Press ENTER to get started,但是无法进入命令行
e. 情况 5:可以进入命令行,但是一段时间之后自动重启 对于 b.c.d.e.情况,可能是硬件故障或者软件版本存在问题,请联系 H3C 技术服务支持。
• 新加入设备的备用主控板无法启动故障按如下步骤处理:
(5) 检查新加入主控板是否和原主控板型号一致
同一台设备中的两块主控板型号要求一致。检查两块主控板型号是否一致,如果不一致,更换一块型号一致的主控板插入。
(6) 收集诊断信息
检查主用主控板运行状态,收集诊断信息,寻求技术支持。
(7) 寻求技术支持
如果上述检查完成后故障仍无法排除,请联系 H3C 的技术支持。
H3C网管交换机单板状态异常故障
1. 故障描述
• 单板状态异常(比如执行 display device 命令查看单板状态为 Absent、Fault 等)。
• 单板出现异常重启、无法启动或不断重启等。
2. 常见原因
本类故障的常见原因主要包括:
• 单板安装不到位。
• 单板损坏。
• 单板面板的指示灯点亮异常。
• 电源模块故障。
• 电源模块输出功率不足。
• 主机软件版本不支持使用该单板。
• 主控板非正常工作状态。
• 业务板、备用主控板或网板与主用主控板的设备标识不一致。
• 业务板启动前网板不在位或网板状态异常。
3. 故障分析
4. 处理步骤
• 单板状态 Absent
(1) 确认单板是否插稳,如检查单板与机框之间是否有空隙,也可以将单板拔出后重插入。重新插入前务必检查单板的连接器状态,看连接器是否变形、脏污。
(2) 将单板放到别的槽位,将框上别的正常的单板放到这个槽位,进一步确认是不是单板故障。
(3) 检查单板面板的指示灯是否点亮。
(4) 确认电源模块输出功率是否充足。比如增加电源模块,看该单板状态是否恢复正常。
(5) 确认主机软件版本是否支持该单板。
a. 通过 display version 命令查看主机软件版本;
b. 联系技术支持,确认当前主机软件版本是否支持该单板;
c. 如果当前软件版本不支持该单板,请升级到正确版本,版本升级前务必确认新版本可以兼容其它单板。
(6) 如果单板是主控板,连上 Console 口配置电缆后,使用尖细工具(如笔尖)按单板上的系统复位键(RESET)或通过 reboot slot slotid force 命令重启单板,查看配置终端上的显示的启动信息是否恢复正常(配置终端无显示或显示乱码均为异常情况),同时查看单板状态指示灯是否恢复正常。
(7) 如果单板是带有 Console口的交换网板,连上 Console口配置电缆后,通过执行 reboot slot slotid force 命令或拔出该单板重新插入设备来重启单板,查看配置终端上的显示信息是否恢复正常,同时查看单板状态指示灯是否恢复正常。
(8) 如果单板是业务板,请先确保主控板处于正常工作状态,确保子卡连接器没有变形、脏污。
(9) 如确认为单板故障,请更换单板,收集如下信息,并联系H3C技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
• 单板状态 Power-off。
(10) 确认设备环境是否存在过温下电,部分产品支持通过 display power-supply 命令查看是存在环境温度过高,单板被下电的记录。比如单板的供电状态“Status”为“off”表示单板由于用户操作或过温保护等原因被主动下电。
如果确认是过温下电,请排查环境单板槽位是否插满,如果单板槽位已插满单板或者挡风板,请通过命令 display fan 确认风扇工作是否正常,风扇状态为 Normal 表示风扇正常工作,
如不正常,或确认单板存在电源故障,请收集如下信息,并联系H3C技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
• 单板状态 Fault。
(11) 检查整机功耗,整机功耗不够时,单板会进入 fault 状态。
(12) 等待一段时间(大约 10 分钟左右)确认下单板是一直 Fault 还是 Normal 后又再次重启。如单板是 Normal 后又自动重启,请收集如下信息,并联系H3C技术支持人员。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
(13) 如果单板是主控板、带串口网板,请连上串口线,查看配置终端上是否有单板正常启动的显示信息、或单板启动是否异常。如下述主控板启动时出现内存读写测试失败而不断重启,需要检查主控板内存条是否插稳。
readed value is 55555555 , expected value is aaaaaaaa
DRAM test fails at: 080ffff8
DRAM test fails at: 080ffff8
Fatal error! Please reboot the board.
(14) 将单板放到别的槽位,进一步确认是不是槽位故障。
(15) 如确认为单板故障,请更换单板,收集如下信息,并联系技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
• 单板重启异常
这里的单板重启是指单板出现过重启,而当前单板状态是 Normal。
(16) 通过日志或运行时间分析重启的时间段,确认重启的时间点附近有无用户通过命令行 reboot 重启或进行单板上下电等操作。
(17) display version 命令支持查询单板最近一次重启的原因。比如“Last reboot reason”表 示单板最近一次重启原因是设备上电。
(18) 如果所有单板同时出现重启,请检查设备电源模块是否正常,确认外部电源是否出现过停电, 电源进线是否插稳、是否出现松动。
(19) 确认日志中重启时有无出现类似“Warning: Standby board on slot 1 is not compatible with master board.”或“Warning: The LPU board on slot 1 is not compatible with MPU board.” 提示信息,这种情况是业务板、备用主控板或网板与主用主控板的设备标识不一致,请联系 技术支持人员更换。
(20) 如无法确认,请收集如下信息,并联系H3C技术支持。
• 上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息。
H3C网管交换机CPU 占用率高
1. 故障描述
连续使用命令 display cpu-usage 查看 CPU 的占用率。如果 CPU 占用率持续在 70%以上,说明有某个任务长时间占用 CPU,需要确认 CPU 高的具体原因。
2. 常见原因
本类故障的常见原因主要包括:
• 路由振荡
• 报文攻击
• 链路环路
3. 故障分析
4. 处理步骤
(1) 检查是否发生路由振荡
使用命令display ip routing-table查询路由表,路由表中条目频繁变化,可能导致 CPU 占用率过高。当发生路由震荡时,收集信息并联系H3C 技术支持。
(2) 检查是否受到报文攻击
部分机型 Probe 视图下支持 debug rxtx softcar show 命令,可以查看软件收包是否堵塞丢包。
如果某类报文的统计计数在不断增长,说明有攻击存在,可通过抓包确认攻击源。在设备端口抓包,使用报文捕获工具(如 Sniffer、Wireshark、WinNetCap 等)分析报文特征,确认攻击源。然后针对攻击源配置报文防攻击。
(3) 检查是否存在链路环路
链路存在环路时,可能出现广播风暴和网络振荡,大量的协议报文上送 CPU 处理可能导致CPU 占用率升高,设备很多端口的流量会变得很大,端口使用率达到 90%以上:
如链路出现环路:
. 排查链路连接、端口配置是否正确。
. 对于二层口,是否使能 STP 协议,配置是否正确。
. 对于二层口,邻接设备 STP 状态是否正常。
. 如以上配置均正确,可能为 STP 协议计算错误或协议计算正确但端口驱动层没有正常Block 阻塞,可以 shutdown 环路上端口、拔插端口让 STP 重新计算来快速恢复业务。
(4) 确定 CPU 占用率高的任务
如果通过上述步骤无法解决故障,请通过 display process cpu 命令观察占用 CPU 最多的任务。
各列分别表示某任务平均 5sec、1min、5min 占用 CPU 的百分比和任务名。某任务占用率越高,说明相应的任务占用 CPU 的资源越多。正常情况任务对 CPU 的占用率一般低于 5%,这个命令可以查看明显高出正常占用率的任务。
(5) 确认异常任务的调用栈
通过 Probe 视图下的 follow job job-id 命令确认异常任务的调用栈,请查询 5 次以上,发送给技术支持人员分析,以便于分析该任务具体在做什么处理导致 CPU 占用率持续升高。此处以显示 JID 145 的调用栈为例。
(6) 如果故障仍然未能排除,请收集如下信息,联系 H3C 技术支持。
•上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息
H3C网管交换机EPON 系统用户设备不能上网
1. 故障描述
ONU 设备注册正常,下挂的用户设备通过 ONU 设备接入,但不能接入网络。
2. 常见原因
设备 MAC 地址配置错误。
3. 处理步骤
(1) 检查用户设备 MAC 地址。
如果 MAC 地址前两个字节的第 7bit 为 1,为异常 MAC 地址,例如:02xx-xxxx-xxxx。符合此规则的异常源 MAC 地址报文在 OLT 设备会被丢弃。出现此种异常 MAC 地址,一般是由于用户修改 MAC 地址导致。
(2) 如果故障无法排除,请收集设备的运行信息,联系 H3C 技术支持
H3C网管交换机端口频繁UP、Down的故障排查
1、故障描述
板卡插入线缆或光模块后,端口频繁 UP/DOWN。
2、常见原因
本类故障的常见原因主要包括:
• 光模块或线缆故障
• 电口自协商不稳定
3、故障分析
4. 处理步骤
(1) 对于光口,需要确认光模块是否异常。通过查看光模块 alarm 信息来排查两者光模块以及中间光纤问题。告警信息中如果存在接收有问题那一般是对端端口、光纤或中转传输设备导致;如果是发送有问题或者电流、电压异常那就需要排查本端端口。
<Sysname> display transceiver alarm interface gigabitethernet 1/0/1 GigabitEthernet1/0/1 transceiver current alarm information:
RX loss of signal
X power low
(2) 检查光模块的接收、发送光功率是否正常(即在该光模块的光功率上下门限值之内)。如果发 送光功率处于临界值,请更换光纤、光模块做交叉验证;如接收光功率处于临界值,请排查对 端光模块及中间光纤链路。
(3) 对于电口,一般在自协商情况下容易出现协商不稳定,这种情况请尝试设置强制速率双工。
(4) 如果故障依存在,请排查链路、对端设备、中间设备。
(5) 如果故障仍然未能排除,请收集如下信息,联系 H3C 技术支持。
•上述步骤的执行结果。
• 设备的配置文件、日志信息、告警信息