答案内容由AI生成,仅供参考:
关于 NADVDD Voltage、TBCore Voltage 等事件码 0x000000E1 告警的分析
根据您提供的系统事件日志和上下文信息,设备在运行过程中出现 NADVDD Voltage、TBCore Voltage 等电压传感器数据获取失败的告警事件(事件码:0x000000E1 和 0x000000E2),以下是基于知识库信息的综合分析与说明。
事件概览
| 事件码 | 严重性 | 事件类型 | 事件描述 | 状态 |
|---|---|---|---|---|
0x000000E1 |
轻微(Minor) | CPU | 无法获取 CPU1 的 NADVDD、TBCore、NBDVDD、TACore 电压数据 | Asserted(已触发) |
0x000000E2 |
轻微(Minor) | CPU | 同上类型事件,但状态为解除(Deasserted) | Deasserted |
触发时间集中在
2025-12-29 07:33:52至07:34:00,表明短时间内多个核心电压监测点同时出现异常。
涉及的关键电压参数解析
根据知识图谱信息,以下为相关电压参数的技术定义:
1. Cpu0v9TACore
- 描述:CPU0 的 CORE 区域核心电压(0.9V),用于 CPU0 的计算核心供电。
- 属性类型:双精度浮点型,可读写。
- 关联 Die ID:1
- 管理模块:
VrdMgmt类 - 用途:监控 CPU 核心供电稳定性。
2. Cpu0v9TBCore
- 描述:CPU0 的另一个 CORE 区域核心电压,专用于 Die ID 为 3 的区域。
- 属性类型:双精度浮点型,可读写。
- 关联 Die ID:3
- 管理模块:
VrdMgmt类 - 意义:多区域独立电压管理,确保复杂多核架构稳定。
3. Cpu0v8NBDVDD
- 描述:CPU0 的北桥(NorthBridge, NB)或 Nimbus 区域 DVDD 的供电电压(约 0.8V)。
- 属性类型:双精度浮点型,可读写。
- 关联 Die ID:2
- 功能:支持非核心部分(如内存控制器、PCIe 接口等)的电源供应。
NADVDD/TBCore/TACore/NBDVDD 是不同功能区域的 VRD(Voltage Regulator Device)输出电压监控点,分别对应 CPU 内不同子系统的供电轨。
告警原因分析
根本原因推断:
日志显示:“Failed to obtain data of the CPU 1 … voltage” 表明 BMC 或监控系统未能从传感器读取电压值,并非电压本身超限。因此问题可能出在:
1. 电压传感器通信中断
- 传感器(如
ThresholdSensor_Power)或其所在的 I²C 总线临时故障。 - 可能由电源波动、硬件复位或固件响应延迟导致。
2. VRD 管理模块(VrdMgmt)异常
Cpu0v9TACore、Cpu0v9TBCore等均属于VrdMgmt模块管理。- 若该模块未能及时刷新数据或发生崩溃,则会导致“获取失败”。
3. CPU Board 供电不稳定
- 结合其他告警(如 PSU 输入丢失),推测可能发生了瞬时供电异常,导致 CPU 板电压调节器短暂离线。
- 文档中已有案例:
Event Code 0x2400000D曾记录 CPU Board 多点电压异常(如 5V/3.3V/12V 检测偏差)。
4. 固件或 BMC 软件 Bug
- 事件码
0x000000E1和0x000000E2属于 CPU 电压读取失败类告警。 - 若多个电压同时失败且时间高度一致,可能是 BMC 中
Power Mgmt模块批量读取时发生超时或异常。
上下文关联:与电源系统的关系
从日志中还发现 三条 Critical 级别的 PSU 告警:
- PSU 1、2、4 的 AC/DC 输入 丢失或超出范围
说明:
主机可能经历了外部电源波动或断电事件 → 引发 CPU Board 上多个电压轨短暂失效 → 导致 BMC 无法读取电压数据 → 触发 0x000000E1 告警。
此外,系统在之后重启:
The host was restarted by command(0x2C000011)ACPI is in the working state
进一步佐证了:电源异常 → 系统重启 → 电压恢复正常 → 告警解除(0x000000E2)
监控机制分析
- 监控主体:
Power Mgmt模块负责采集 CPU 各电压轨数据。 - 监控方式:通过
VrdMgmt类访问Cpu0v9TACore、Cpu0v9TBCore等属性。 - 告警触发逻辑:
- 读取失败 → 触发
0x000000E1 - 恢复成功 → 触发
0x000000E2(Deasserted)
- 读取失败 → 触发
- 数据路径:传感器 → I²C → BMC → Power Mgmt → 日志系统
是否常见?是否可恢复?
是常见现象吗?
是的。在高密度服务器系统中,特别是使用 Atlas 300 系列加速卡或华为 S920X 等平台时:
- 多次出现因 PSU 输入异常 → CPU VRD 数据采集失败 → 触发 0x000000E1 告警 的情况。
- 特别是在电网波动、PDU 切换或冗余电源切换时容易发生。
属于典型“连锁反应型”告警,优先排查上游电源问题。
是否可恢复?
- 可以恢复。从日志看出:
- 所有
0x000000E1告警最终转为0x000000E2(Deasserted) - 表示系统已重新获得电压数据,状态正常
- 所有
- 若长期存在该告警,则需深入排查硬件或固件
建议处理措施
| 步骤 | 操作 | 目的 |
|---|---|---|
| 1 | 检查 PSU 输入电源质量 | 确保 AC/DC 输入稳定,无瞬断 |
| 2 | 查看 PSU 运行状态及日志 | 排查是否 PSU 自身故障或通讯中断 |
| 3 | 检查 CPU Board 上 CpuBoard1VVRD_Version 是否正确 |
版本不匹配可能导致 VRD 控制异常 |
| 4 | 升级 Power Mgmt 模块至最新版本 |
如 openUBMC.release v1.70.117+ |
| 5 | 检查 I²C 总线通信稳定性 | 使用 i2c-tools 扫描设备是否存在应答失败 |
| 6 | 收集黑匣子日志供故障诊断 | Fault Diagnosis 模块支持深度分析传感器异常 |
总结
| 项目 | 说明 |
|---|---|
| 告警事件 | 0x000000E1: CPU 电压传感器数据获取失败 |
| 影响组件 | Cpu0v9TACore, Cpu0v9TBCore, Cpu0v8NBDVDD 等 VRD 输出轨 |
| 根本原因 | 上游 PSU 输入异常导致 CPU Board 供电波动,进而引发 BMC 无法读取电压数据 |
| 是否严重 | 轻微(Minor),但若频繁发生需重视 |
| 是否常见 | 是,在电源切换或波动时较常见 |
| 建议动作 | 检查 PSU 输入、升级 Power Mgmt、监控 I²C 通信 |
结论:该告警通常为瞬态事件,主因是电源扰动引起的连锁反应。建议加强电源稳定性管理,并定期更新 Power Mgmt 固件以提升鲁棒性。
如有持续发生,请提供完整的 Power Mgmt 日志和 VrdMgmt 模块状态用于进一步分析。
相关链接: