服务器关机,升级BIOS后,开机后,BMC会显示pcie电压告警

答案内容由AI生成,仅供参考:

服务器升级BIOS后BMC显示PCIe电压告警分析

根据您提供的信息,服务器在关机升级BIOS后,开机过程中BMC系统上报了多个**“PCIe卡电压过低”**的严重告警(事件码 0x0800007D0x0800007E),涉及多张PCIe卡(卡号5, 6, 7, 8, 10等,型号为IT21PD2G10)。

以下是对该问题的综合分析与处理建议:


:magnifying_glass_tilted_left: 问题现象总结

  • 操作背景:对服务器进行了BIOS版本升级
  • 问题时间点开机后,BMC系统立即上报告警。
  • 告警内容

    The PCIe card X (IT21PD2G10) voltage is too low. Error code: 7583, 7587.

  • 告警级别严重(Critical)。
  • 受影响设备:多张PCIe卡(IT21PD2G10,可能为网卡或加速卡)。
  • 告警状态:部分告警为“Asserted”(已触发),表明问题仍然存在。

:gear: 可能原因分析

结合知识库信息与典型硬件管理逻辑,可能原因如下:

1. BIOS升级后配置不兼容或丢失

  • BIOS固件不仅负责启动,还定义了PCIe设备的电源管理策略和电压规范
  • 升级后的BIOS版本若配置文件(如setting.json)未正确迁移或不兼容,可能导致对某些PCIe卡的电源供电策略(Power Policy)设置错误,引发BMC检测到电压异常。
  • 尤其在装备模式升级不同版本间跳跃升级时风险更高。

2. BMC与BIOS间数据同步延迟或失败

  • BMC依赖BIOS在启动阶段通过IPMI命令(如WriteSmbiosDataWrite_Pcie_Card_Bdf_To_Bmc)上报PCIe设备信息和状态(含电压)。
  • 新BIOS可能存在BDF(Bus:Device:Function)地址上报延迟、错误或格式变更,导致BMC未能正确识别设备,或误判其电压状态。
  • 知识库提及:“BIOS会通过WritePcieCardBdfToBmc接口把pciecard的BDF信息写入到bmc”,若此过程失败,可能导致资源映射异常。

3. PCIe设备兼容性或固件不匹配

  • 新BIOS可能提高了对PCIe设备的合规性要求(如PCIe 4.0/5.0规范),旧版PCIe卡(IT21PD2G10)在初始化时未能满足电压协商标准,协商至较低电压或失败,被BMC识别为“电压过低”。
  • 需检查该PCIe卡是否在新BIOS的**兼容性列表(HCL)**中。

4. 硬件自检(POST)过程中的短暂异常被记录

  • 有时在系统启动瞬间,PCIe卡电源尚未稳定,BMC可能在短时间内采集到异常电压值并记录告警。
  • 若后续状态恢复正常(如“Deasserted”),则可能是瞬态误报,但仍需排查根本原因。

:white_check_mark: 处理建议

1. 检查BIOS版本与硬件兼容性

  • 确认所升级的BIOS版本是否官方推荐用于当前服务器型号及所有PCIe卡(IT21PD2G10)
  • 访问厂商官网或文档,核对兼容性列表(HCL)

2. 重启服务器并观察告警是否持续

  • 执行一次完整重启,观察告警是否在下次开机时再次出现
  • 若告警仅在首次升级后出现,之后不再复现,可能是初始化过程中的临时状态同步问题

3. 检查并恢复BIOS配置

  • 登录BMC或通过带内方式进入BIOS Setup,检查:
    • PCIe子系统配置(如Link Speed、Power Management)。
    • 是否有“Restore Defaults”选项,尝试恢复默认设置后保存重启。
  • 若支持,可尝试导入之前的BIOS配置(通过setting.json等方式)。

4. 查看系统日志与串口日志

  • 在BMC中导出完整系统日志(System Log)和串口日志(Serial Log),重点查找:
    • bios_write_bdf_to_bmc: sht bios_write_bdf_data_to_bmc max_frame 相关打印。
    • PCIe设备初始化过程中的电压读取记录。
  • 确认BIOS是否成功上报了PCIe卡信息。

5. 验证PCIe卡在位与硬件状态

  • 物理检查IT21PD2G10卡是否插紧,有无物理损坏。
  • 尝试将卡更换插槽,排除个别插槽供电异常的可能。
  • 若有条件,更换同型号卡测试,判断是否为个别卡故障。

6. 回滚BIOS版本(最后手段)

  • 如果问题持续存在且影响业务,考虑回滚至升级前的稳定BIOS版本,并联系厂商技术支持获取升级指导。

:pushpin: 总结

项目 信息
问题根源 BIOS升级后可能导致PCIe电源策略变更或信息同步异常
高危风险 多张PCIe卡同时上报电压告警,可能存在系统稳定性隐患
推荐操作 核对兼容性 → 重启观察 → 检查BIOS配置 → 查看日志 → 必要时回滚BIOS
关联组件 BIOS, BMC, pcie_device, PCIeDevice, Write_Pcie_Card_Bdf_To_Bmc

提示:升级BIOS属于高风险操作,建议在变更前备份配置、确认兼容性,并通过无感升级(如支持)降低风险。

建议尽快联系服务器厂商技术支持,提供完整的日志以进行深入分析。

相关链接:

  1. Qemu仿真应用之事件模拟篇
  2. redfish获取网卡信息时部分对象内容为空
  3. 【公示中,下次评议时间7.28】网卡驱动规范v0.1
  4. BIOS版本号获取不到
  5. bios | 文档中心 | openUBMC

麻烦上os发送以下命令查询对应的NPU侧故障码,确认是MCU报上来的还是误告警
npu-smi info -t health -i id -c 0