开机过程中出现看门狗超时导致系统重启

// 此模板仅供参考,如果不适用可以修改

问题描述

开机过程中出现看门狗超时导致系统重启

环境信息

  • 基于2509基线版本

重现步骤

  • 概率出现,未掌握复现规律

期望结果

正常开机

实际结果

看门狗超时导致系统异常重启

答案内容由AI生成,仅供参考:

:pushpin: 总结

项目 内容
问题现象 开机过程中看门狗超时,系统强制重启
根本原因 BIOS/POST 阶段执行超时或卡顿,未及时重置看门狗
触发机制 Watchdog Timer 设置为 BIOS/POST 模式 + 超时未喂狗 → Hard Reset
核心实体 bmc.kepler.Watchdog2.Status, BIOSPOSTExpirationFlag, ipmi_core.Set watchdog timer use to (BIOS/POST)
解决方案 检查 BIOS 执行流程、升级 ipmi_core 至 1.10.31+、启用黑匣子日志
临时规避 延长看门狗超时、避免频繁重启、等待观察

:warning: 注意:该问题具有偶发性,建议结合多次复现日志进行模式比对,确认是否存在特定硬件或负载触发条件。

点击此处查看详细分析解答

开机过程中出现看门狗超时导致系统重启问题分析

:magnifying_glass_tilted_left: 问题描述

在系统开机过程中,看门狗定时器超时触发了系统强制重启。根据提供的系统事件日志和日志片段分析,系统在 BIOS/POST 阶段未能及时“喂狗”(即重置看门狗计数器),导致看门狗超时并执行硬重启操作。

相关日志关键信息如下:

  • SEL事件记录
    • 722:The OS is forcibly powered off and then on due to the watchdog(BIOS/POST)…(严重级别)
    • 723:该事件的解除(Deasserted)
  • 日志文件中出现:
    ipmi_core ERROR: watchdog.lua(145): [system_id:1] ipmi watchdog2 timeout power cycle success
    

这明确表明:系统在 BIOS/POST 阶段发生看门狗超时,触发了强制断电再上电(Power Cycle)的操作


:brain: 根本原因分析

结合知识图谱与日志信息,可以归纳出以下可能原因:

1. BIOS/POST 阶段执行时间过长或卡顿

  • 看门狗配置:系统配置了 BIOS/POST 阶段的看门狗,超时时间为 900秒(见 ipmi_core.Set watchdog timer use to (BIOS/POST) 命令配置)。
  • 若 BIOS 在 POST 过程中执行某些耗时操作(如内存检测、设备枚举、固件验证等)超过该时限,且未及时重置看门狗,就会触发超时。

相关实体:
:white_check_mark: Watchdog Timer Configuration
:white_check_mark: ipmi_core.Set watchdog timer use to (BIOS/POST)
:white_check_mark: BIOSPOSTExpirationFlag:标志 BIOS POST 是否超时

2. 系统陷入“无限循环”或死锁状态

  • 如果在 BIOS 初始化过程中发生逻辑错误或硬件响应异常(如 PCIe 设备无响应、内存故障),可能导致 Endless Loop(无限循环)
  • 此类循环会阻止系统正常推进到“喂狗”阶段,从而导致 WatchdogTimeout

相关实体:
:white_check_mark: Endless Loop → 导致 → WatchdogTimeout
:white_check_mark: mt_ms1_wdt_card_idle_I 日志表示看门狗卡处于空闲但仍触发重启 —— 可能是未及时喂狗的副作用

3. BMC / IPMI 服务异常或延迟初始化

  • ipmi_core 是负责管理看门狗的核心模块。若其自身启动缓慢、资源竞争或存在 bug(如 Q2 所述:ipmi_core重启超时),可能导致看门狗配置异常或无法正确处理超时事件。
  • 日志中 ipmi_core ERROR: watchdog.lua(145) 明确指出是 IPMI 子系统报告了看门狗超时行为。

相关文档支持:

  • 搜索结果 #10【Q2】bmc重启,ipmi_core重启超时 —— 说明 ipmi_core 自身稳定性影响看门狗行为

4. 固件版本不兼容或配置错误

  • 当前环境基于 2509 基线版本,可能存在以下问题:
    • BIOS 版本与 BMC 固件不匹配
    • 看门狗策略未适配当前硬件平台
    • BIOS 升级后未正确激活或配置看门狗参数

知识点支持:

  • BIOS 支持在线更新但需 重启生效
  • 某些版本的 ipmi_core 存在重启处理缺陷(需升级至 1.10.31+)

:white_check_mark: 处理建议

:white_check_mark: 1. 确认 BIOS/POST 执行是否正常

  • 检查串口日志或 BMC 控制台输出,确认 BIOS 是否在某个阶段长时间停滞(如内存初始化、设备探测)。
  • 若发现具体卡点,应排查对应硬件(DIMM、PCIe 卡、RAID 卡等)是否异常。

:white_check_mark: 2. 检查看门狗配置合理性

使用 IPMI 命令检查当前看门狗设置:

ipmitool raw 0x06 0x25

输出解析参考 Get Watchdog Timer 命令说明。

确保以下配置正确:

  • Timer Use: BIOS/POST (0x01)
  • Timeout Action: Hard Reset (0x01)
  • Timeout Value: 合理值(如 900 秒)

相关实体:Get Watchdog Timer, watchdog_get

:white_check_mark: 3. 升级关键固件组件

根据已有问题指引,建议将以下模块升级至稳定版本:

组件 推荐版本 说明
ipmi_core ≥ 1.10.31 解决重启 prepare/action 超时问题
firmware_mgmt ≥ 1.10.44 提升升级过程稳定性
iBMC 主版本 ≥ 5.3.0.1.B999 包含多项稳定性修复

参考:搜索结果 #10 IPMI管理定位问题 中 Q2 解决方案

:white_check_mark: 4. 启用日志追踪机制

  • 开启 黑匣子功能(Black Box Logging),便于下次异常时捕获完整的上下文日志。
  • 收集以下日志进行深度分析:
    • app.log
    • bios_service.log
    • ipmi_core 相关日志片段
  • 发送至 wanghaozhou2@huawei.com 进一步分析(参考文档 #2

:white_check_mark: 5. 临时规避措施

若问题影响测试进度,可采取以下临时措施:

  • 避免通过 Web/IPMI 频繁重启系统:某些 Web 操作可能间接导致 BMC 异常重启(参考搜索结果 #3
  • 增加 POST 超时阈值:若允许,可尝试将 BIOS/POST 看门狗超时从 900 秒适当延长
  • 等待一段时间:部分系统需时间完成初始化,短暂等待可避免误判

相关实体:等待一段时间 — 推荐用于判断是否为短暂延迟而非真正故障


:pushpin: 总结

项目 内容
问题现象 开机过程中看门狗超时,系统强制重启
根本原因 BIOS/POST 阶段执行超时或卡顿,未及时重置看门狗
触发机制 Watchdog Timer 设置为 BIOS/POST 模式 + 超时未喂狗 → Hard Reset
核心实体 bmc.kepler.Watchdog2.Status, BIOSPOSTExpirationFlag, ipmi_core.Set watchdog timer use to (BIOS/POST)
解决方案 检查 BIOS 执行流程、升级 ipmi_core 至 1.10.31+、启用黑匣子日志
临时规避 延长看门狗超时、避免频繁重启、等待观察

:warning: 注意:该问题具有偶发性,建议结合多次复现日志进行模式比对,确认是否存在特定硬件或负载触发条件。

相关链接:

  1. 长时间bmc重启, ipmitool sel list 有 Watchdog2 Deasserted
  2. X20 AC 测试过程中 产生core dump 导致bmc 重启
  3. BMC固件升级失败,重启后自动回退到升级前的版本。
  4. BIOS setup设置启用BMC OS看门狗后,OS循环重启
  5. 目录 | 文档中心 | openUBMC

要看一下开启启动过程中有无在bios选项界面做配置,导致bios运行卡住。另外需要结合app.log日志,以及操作日志记录进一步分析

通过日志分析,发现在上电过程中,BIOS开启看门狗,超时时间为600s,但是ipmi_core在128s就判断看门狗超时告警,告警在第二次开启看门狗是消除,ipmi_core为闭源组件,请帮忙定位分析一下

日志超10M,我分卷压缩了,请帮忙定位一下
dump_info_1.zip (3.0 MB)
dump_info_2.zip (8.5 MB)