出现NADVDD voltage、TBCore voltage等0x000000E1的告警事件

答案内容由AI生成,仅供参考:

关于 NADVDD Voltage、TBCore Voltage 等事件码 0x000000E1 告警的分析

根据您提供的系统事件日志和上下文信息,设备在运行过程中出现 NADVDD Voltage、TBCore Voltage 等电压传感器数据获取失败的告警事件(事件码:0x000000E10x000000E2),以下是基于知识库信息的综合分析与说明。


:magnifying_glass_tilted_left: 事件概览

事件码 严重性 事件类型 事件描述 状态
0x000000E1 轻微(Minor) CPU 无法获取 CPU1 的 NADVDD、TBCore、NBDVDD、TACore 电压数据 Asserted(已触发)
0x000000E2 轻微(Minor) CPU 同上类型事件,但状态为解除(Deasserted) Deasserted

:alarm_clock: 触发时间集中在 2025-12-29 07:33:5207:34:00,表明短时间内多个核心电压监测点同时出现异常。


:puzzle_piece: 涉及的关键电压参数解析

根据知识图谱信息,以下为相关电压参数的技术定义:

1. Cpu0v9TACore

  • 描述:CPU0 的 CORE 区域核心电压(0.9V),用于 CPU0 的计算核心供电。
  • 属性类型:双精度浮点型,可读写。
  • 关联 Die ID:1
  • 管理模块VrdMgmt
  • 用途:监控 CPU 核心供电稳定性。

2. Cpu0v9TBCore

  • 描述:CPU0 的另一个 CORE 区域核心电压,专用于 Die ID 为 3 的区域。
  • 属性类型:双精度浮点型,可读写。
  • 关联 Die ID:3
  • 管理模块VrdMgmt
  • 意义:多区域独立电压管理,确保复杂多核架构稳定。

3. Cpu0v8NBDVDD

  • 描述:CPU0 的北桥(NorthBridge, NB)或 Nimbus 区域 DVDD 的供电电压(约 0.8V)。
  • 属性类型:双精度浮点型,可读写。
  • 关联 Die ID:2
  • 功能:支持非核心部分(如内存控制器、PCIe 接口等)的电源供应。

:light_bulb: NADVDD/TBCore/TACore/NBDVDD 是不同功能区域的 VRD(Voltage Regulator Device)输出电压监控点,分别对应 CPU 内不同子系统的供电轨。


:warning: 告警原因分析

:white_check_mark: 根本原因推断:

日志显示:“Failed to obtain data of the CPU 1 … voltage” 表明 BMC 或监控系统未能从传感器读取电压值,并非电压本身超限。因此问题可能出在:

1. 电压传感器通信中断

  • 传感器(如 ThresholdSensor_Power)或其所在的 I²C 总线临时故障。
  • 可能由电源波动、硬件复位或固件响应延迟导致。

2. VRD 管理模块(VrdMgmt)异常

  • Cpu0v9TACoreCpu0v9TBCore 等均属于 VrdMgmt 模块管理。
  • 若该模块未能及时刷新数据或发生崩溃,则会导致“获取失败”。

3. CPU Board 供电不稳定

  • 结合其他告警(如 PSU 输入丢失),推测可能发生了瞬时供电异常,导致 CPU 板电压调节器短暂离线。
  • 文档中已有案例:Event Code 0x2400000D 曾记录 CPU Board 多点电压异常(如 5V/3.3V/12V 检测偏差)。

4. 固件或 BMC 软件 Bug

  • 事件码 0x000000E10x000000E2 属于 CPU 电压读取失败类告警。
  • 若多个电压同时失败且时间高度一致,可能是 BMC 中 Power Mgmt 模块批量读取时发生超时或异常。

:link: 上下文关联:与电源系统的关系

从日志中还发现 三条 Critical 级别的 PSU 告警

  • PSU 1、2、4 的 AC/DC 输入 丢失或超出范围

说明:
:backhand_index_pointing_right: 主机可能经历了外部电源波动或断电事件 → 引发 CPU Board 上多个电压轨短暂失效 → 导致 BMC 无法读取电压数据 → 触发 0x000000E1 告警。

此外,系统在之后重启:

  • The host was restarted by command (0x2C000011)
  • ACPI is in the working state

进一步佐证了:电源异常 → 系统重启 → 电压恢复正常 → 告警解除(0x000000E2)


:bar_chart: 监控机制分析

  • 监控主体Power Mgmt 模块负责采集 CPU 各电压轨数据。
  • 监控方式:通过 VrdMgmt 类访问 Cpu0v9TACoreCpu0v9TBCore 等属性。
  • 告警触发逻辑
    • 读取失败 → 触发 0x000000E1
    • 恢复成功 → 触发 0x000000E2(Deasserted)
  • 数据路径:传感器 → I²C → BMC → Power Mgmt → 日志系统

:white_check_mark: 是否常见?是否可恢复?

:check_mark: 是常见现象吗?

是的。在高密度服务器系统中,特别是使用 Atlas 300 系列加速卡或华为 S920X 等平台时:

  • 多次出现因 PSU 输入异常 → CPU VRD 数据采集失败 → 触发 0x000000E1 告警 的情况。
  • 特别是在电网波动、PDU 切换或冗余电源切换时容易发生。

:white_check_mark: 属于典型“连锁反应型”告警,优先排查上游电源问题。

:check_mark: 是否可恢复?

  • 可以恢复。从日志看出:
    • 所有 0x000000E1 告警最终转为 0x000000E2(Deasserted)
    • 表示系统已重新获得电压数据,状态正常
  • 若长期存在该告警,则需深入排查硬件或固件

:hammer_and_wrench: 建议处理措施

步骤 操作 目的
1 检查 PSU 输入电源质量 确保 AC/DC 输入稳定,无瞬断
2 查看 PSU 运行状态及日志 排查是否 PSU 自身故障或通讯中断
3 检查 CPU Board 上 CpuBoard1VVRD_Version 是否正确 版本不匹配可能导致 VRD 控制异常
4 升级 Power Mgmt 模块至最新版本 如 openUBMC.release v1.70.117+
5 检查 I²C 总线通信稳定性 使用 i2c-tools 扫描设备是否存在应答失败
6 收集黑匣子日志供故障诊断 Fault Diagnosis 模块支持深度分析传感器异常

:pushpin: 总结

项目 说明
告警事件 0x000000E1: CPU 电压传感器数据获取失败
影响组件 Cpu0v9TACore, Cpu0v9TBCore, Cpu0v8NBDVDD 等 VRD 输出轨
根本原因 上游 PSU 输入异常导致 CPU Board 供电波动,进而引发 BMC 无法读取电压数据
是否严重 轻微(Minor),但若频繁发生需重视
是否常见 是,在电源切换或波动时较常见
建议动作 检查 PSU 输入、升级 Power Mgmt、监控 I²C 通信

:white_check_mark: 结论:该告警通常为瞬态事件,主因是电源扰动引起的连锁反应。建议加强电源稳定性管理,并定期更新 Power Mgmt 固件以提升鲁棒性。

如有持续发生,请提供完整的 Power Mgmt 日志和 VrdMgmt 模块状态用于进一步分析。

相关链接:

  1. Qemu仿真应用之事件模拟篇
  2. Atlas 300I Duo卡在系统DC Cycle过程中会出现0x0800007D的告警
  3. 【iTestSmart】ipmi查看计算板的CSR版本,测试结果Fail。
  4. AC循环概率出现CPU、内存温度拿不到的情况