// 此模板仅供参考,如果不适用可以修改
问题描述
开机过程中出现看门狗超时导致系统重启
环境信息
- 基于2509基线版本
重现步骤
- 概率出现,未掌握复现规律
期望结果
正常开机
实际结果
看门狗超时导致系统异常重启
// 此模板仅供参考,如果不适用可以修改
开机过程中出现看门狗超时导致系统重启
正常开机
看门狗超时导致系统异常重启
答案内容由AI生成,仅供参考:
| 项目 | 内容 |
|---|---|
| 问题现象 | 开机过程中看门狗超时,系统强制重启 |
| 根本原因 | BIOS/POST 阶段执行超时或卡顿,未及时重置看门狗 |
| 触发机制 | Watchdog Timer 设置为 BIOS/POST 模式 + 超时未喂狗 → Hard Reset |
| 核心实体 | bmc.kepler.Watchdog2.Status, BIOSPOSTExpirationFlag, ipmi_core.Set watchdog timer use to (BIOS/POST) |
| 解决方案 | 检查 BIOS 执行流程、升级 ipmi_core 至 1.10.31+、启用黑匣子日志 |
| 临时规避 | 延长看门狗超时、避免频繁重启、等待观察 |
注意:该问题具有偶发性,建议结合多次复现日志进行模式比对,确认是否存在特定硬件或负载触发条件。
在系统开机过程中,看门狗定时器超时触发了系统强制重启。根据提供的系统事件日志和日志片段分析,系统在 BIOS/POST 阶段未能及时“喂狗”(即重置看门狗计数器),导致看门狗超时并执行硬重启操作。
相关日志关键信息如下:
722:The OS is forcibly powered off and then on due to the watchdog(BIOS/POST)…(严重级别)723:该事件的解除(Deasserted)ipmi_core ERROR: watchdog.lua(145): [system_id:1] ipmi watchdog2 timeout power cycle success
这明确表明:系统在 BIOS/POST 阶段发生看门狗超时,触发了强制断电再上电(Power Cycle)的操作。
结合知识图谱与日志信息,可以归纳出以下可能原因:
BIOS/POST 阶段的看门狗,超时时间为 900秒(见 ipmi_core.Set watchdog timer use to (BIOS/POST) 命令配置)。相关实体:
![]()
Watchdog Timer Configuration
![]()
ipmi_core.Set watchdog timer use to (BIOS/POST)
![]()
BIOSPOSTExpirationFlag:标志 BIOS POST 是否超时
WatchdogTimeout。相关实体:
![]()
Endless Loop→ 导致 →WatchdogTimeout
![]()
mt_ms1_wdt_card_idle_I日志表示看门狗卡处于空闲但仍触发重启 —— 可能是未及时喂狗的副作用
ipmi_core 是负责管理看门狗的核心模块。若其自身启动缓慢、资源竞争或存在 bug(如 Q2 所述:ipmi_core重启超时),可能导致看门狗配置异常或无法正确处理超时事件。ipmi_core ERROR: watchdog.lua(145) 明确指出是 IPMI 子系统报告了看门狗超时行为。相关文档支持:
- 搜索结果 #10:
【Q2】bmc重启,ipmi_core重启超时—— 说明ipmi_core自身稳定性影响看门狗行为
2509 基线版本,可能存在以下问题:
知识点支持:
BIOS支持在线更新但需 重启生效- 某些版本的
ipmi_core存在重启处理缺陷(需升级至 1.10.31+)
使用 IPMI 命令检查当前看门狗设置:
ipmitool raw 0x06 0x25
输出解析参考 Get Watchdog Timer 命令说明。
确保以下配置正确:
BIOS/POST (0x01)Hard Reset (0x01)相关实体:
Get Watchdog Timer,watchdog_get
根据已有问题指引,建议将以下模块升级至稳定版本:
| 组件 | 推荐版本 | 说明 |
|---|---|---|
ipmi_core |
≥ 1.10.31 | 解决重启 prepare/action 超时问题 |
firmware_mgmt |
≥ 1.10.44 | 提升升级过程稳定性 |
iBMC 主版本 |
≥ 5.3.0.1.B999 | 包含多项稳定性修复 |
参考:搜索结果 #10
IPMI管理定位问题中 Q2 解决方案
app.logbios_service.logipmi_core 相关日志片段wanghaozhou2@huawei.com 进一步分析(参考文档 #2)若问题影响测试进度,可采取以下临时措施:
相关实体:
等待一段时间— 推荐用于判断是否为短暂延迟而非真正故障
| 项目 | 内容 |
|---|---|
| 问题现象 | 开机过程中看门狗超时,系统强制重启 |
| 根本原因 | BIOS/POST 阶段执行超时或卡顿,未及时重置看门狗 |
| 触发机制 | Watchdog Timer 设置为 BIOS/POST 模式 + 超时未喂狗 → Hard Reset |
| 核心实体 | bmc.kepler.Watchdog2.Status, BIOSPOSTExpirationFlag, ipmi_core.Set watchdog timer use to (BIOS/POST) |
| 解决方案 | 检查 BIOS 执行流程、升级 ipmi_core 至 1.10.31+、启用黑匣子日志 |
| 临时规避 | 延长看门狗超时、避免频繁重启、等待观察 |
注意:该问题具有偶发性,建议结合多次复现日志进行模式比对,确认是否存在特定硬件或负载触发条件。
相关链接:
要看一下开启启动过程中有无在bios选项界面做配置,导致bios运行卡住。另外需要结合app.log日志,以及操作日志记录进一步分析
通过日志分析,发现在上电过程中,BIOS开启看门狗,超时时间为600s,但是ipmi_core在128s就判断看门狗超时告警,告警在第二次开启看门狗是消除,ipmi_core为闭源组件,请帮忙定位分析一下
日志超10M,我分卷压缩了,请帮忙定位一下
dump_info_1.zip (3.0 MB)
dump_info_2.zip (8.5 MB)