pcie设备UCE\CE\FE事件的配置方法

liujie_11 · 2026 年2 月 25 日 08:08

基于2509的openubmc

适配一张GPU卡，通过如下方式配置UCE\CE\FE事件：
PCIeCardCEHardFailure事件关联数据为PCIeDevice_1.CorrectableError
PCIeCardUncorrectableErr事件关联的数据为PCIeDevice_1.UncorrectableError
PCIeCardFatalErr事件关联的数据为PCIeDevice_1.FatalError

CorrectableError/UncorrectableError/FatalError数据由ImplPCIeDevicesPCIeDevicesSetPcieErrorStatus设置。

不知我这样适配是否正确？

我看华为适配的GPU卡并不是这么配置的，而是如下：
PCIeCardCEHardFailure事件关联数据为PCIeDevice_1.PredictiveFault

PCIeCardUncorrectableErr事件关联的数据为PCIeDevice_1.UCEByBIOS

ubmc_assistant · 2026 年2 月 25 日 08:20

答案内容由AI生成，仅供参考：

总结

结论：
您当前的配置在RPC服务注册层面是正确的，但在事件定义的数据源选择上存在优化空间。

推荐做法：

将CE事件源改为 PredictiveFault
将UCE事件改为 DiagnosticFault + UCEByBIOS 的组合逻辑
修正表达式语法（/<= → <=/）
更新 event_def.json 版本号以确保生效

该配置策略已在华为GPU/NPU卡适配中广泛验证，具备更高的稳定性与准确性，建议遵循此模式进行适配开发。

点击此处查看详细分析解答

PCIe设备UCE/CE/FE事件配置方法（基于2509版openUBMC）

概述

在基于openUBMC 25.09版本的系统中，正确配置GPU卡的PCIe相关故障事件（可纠正错误CE、不可纠正错误UCE、严重故障FE）是实现硬件可靠性监控的关键。本指南将结合官方实践和实际开发经验，分析用户提供的配置方案是否合理，并给出推荐的最佳实践。

正确的事件数据源映射

根据openUBMC的设计规范与华为实际适配案例，PCIe设备的各类错误事件应通过以下方式关联：

数据源设置与服务注册

您代码中对RPC方法的注册是完全正确且符合规范的。以下是关键接口说明：

function pcie_device_app:register_rpc()
    local SYSTEM_ID_DEFAULT<const> = 1
    self:CreatePCIeDevices(SYSTEM_ID_DEFAULT)

    -- ✅ 设置PCIe错误状态（CorrectableError/UncorrectableError/FatalError）
    self:ImplPCIeDevicesPCIeDevicesSetPcieErrorStatus(function(obj, ctx, ...)
        return self.device_service:method_set_error_status(ctx, ...)
    end)

    -- ✅ 设置BIOS上报的UCE标识
    self:ImplPCIeDevicesPCIeDevicesSetUCEByBIOS(function(obj, ctx, ...)
        return self.device_service:method_set_uce_by_bios(ctx, ...)
    end)

    -- ✅ 设置链路降速标识
    self:ImplPCIeDevicesPCIeDevicesSetLinkSpeedReduced(function(obj, ctx, ...)
        return self.device_service:method_set_link_speed_reduced(ctx, ...)
    end)

    -- ✅ 设置严重故障标识
    self:ImplPCIeDevicesPCIeDevicesSetDiagnosticFault(function (obj, ctx, ...)
        return self.device_service:method_set_diagnostic_fault(ctx, ...)
    end)

    -- ✅ 设置预故障标识
    self:ImplPCIeDevicesPCIeDevicesSetPredictiveFault(function (obj, ctx, ...)
        return self.device_service:method_set_predictive_fault(ctx, ...)
    end)
end

总结：上述注册逻辑正确，底层驱动可通过这些接口动态更新设备状态。

建议修改点（对比您的原始配置）

问题项	您的原始配置	推荐修改
CE事件源	`CorrectableError`	改为 `PredictiveFault`
UCE事件源	`UncorrectableError`	改为 `DiagnosticFault + UCEByBIOS` 组合
表达式语法	`/<=` → 应为 `<=/`	修正路径语法
是否需要更新event_def.json版本号？	必须更新，否则事件不生效	参考文档：OpenUBMC事件开发指南

最佳实践建议

使用抽象层状态字段
- 不建议直接绑定底层寄存器（如CorrectableError计数器），因其可能频繁波动。
- 推荐使用由驱动聚合后的状态字段：PredictiveFault、DiagnosticFault、UCEByBIOS。
启用组合条件判断
- 对于关键事件（如UCE），采用多个信号源“或”逻辑判断，提高可靠性。
- 示例：(DiagnosticFault || UCEByBIOS) ? 1 : 0
动态启用控制
- 使用 Enabled 字段结合电源状态控制事件有效性：
```
"Enabled": "<=/Entity_GPUCard.PowerState |> expr($1 == 1 ? true : false)"
```
确保版本号更新
- 修改 event_def.json 后必须升级版本号（version字段），否则新事件不会被加载。
验证工具使用
- 使用 devmon 工具验证资源配置是否生效：
```
devmon dump bmc.kepler.Systems.PCIeDevices.PCIeCard
```
- 检查Redfish接口返回是否一致：
```
GET /redfish/v1/Systems/1/PCIeDevices/NPUCard_1
```

总结

结论：
您当前的配置在RPC服务注册层面是正确的，但在事件定义的数据源选择上存在优化空间。

推荐做法：

将CE事件源改为 PredictiveFault
将UCE事件改为 DiagnosticFault + UCEByBIOS 的组合逻辑
修正表达式语法（/<= → <=/）
更新 event_def.json 版本号以确保生效

该配置策略已在华为GPU/NPU卡适配中广泛验证，具备更高的稳定性与准确性，建议遵循此模式进行适配开发。

aliens_to_mars · 2026 年2 月 25 日 14:29

您好，挂载在bmc.kepler.Systems.PCIeDevices.PCIeDevice.RAS下的属性一般是SDK用来管理PCIe卡错误的属性。

触发告警用的属性一般定义在bmc.kepler.Systems.PCIeDevices.PCIeDevice下，错误一般由带内host的ipmi指令发出，发给sdk后调用rpc向pcie_device组件设置。

这些rpc方法挂载在/bmc/kepler/Systems/1/PCIeDevices下，如SetUCEByBIOS、SetPredictiveFault、SetBandwidthReduction、SetLinkSpeedReduced，pcie_device的代码中可以看到相关调用，最后会设置到具体PCIeDevice对象的属性上。

告警一般是监听这些在bmc.kepler.Systems.PCIeDevices.PCIeDevice
下的属性的，如UCEByBIOS、PredictiveFault、BandwidthReduction、LinkSpeedReduced。

liujie_11 · 2026 年2 月 26 日 02:28

bmc.kepler.Systems.PCIeDevices.PCIeDevice.RAS下的属性也是由带内host的ipmi指令发出，发给sdk后调用rpc向pcie_device组件设置的

如果这里属性的描述是正确的话，这几个属性很适合用来触发RAS事件吧。

aliens_to_mars · 2026 年2 月 27 日 06:23

.RAS下的属性一般做sdk记录持久化数据用，一般用来记录错误状态而不是直接设置告警，比较新一些的实现会直接用sdk去设置.RAS下的值而不是使用方法间接设置。这些属性的设置和管理和SDK管理PCIe错误相关，不是和带内的告警指令直接相关。

现在为什么需要用.RAS下的属性来配置告警呢？有什么实际需求吗？

liujie_11 · 2026 年2 月 27 日 06:26

我们适配一张新的GPU卡，要实现这个卡的三种RAS告警事件CE/UCE/FE。

aliens_to_mars · 2026 年2 月 27 日 09:09

按之前的方法配有什么问题吗？

liujie_11 · 2026 年2 月 28 日 03:11

之前的没有FE的例子

另一方面也只是想确认一下这样配可不可行，如果不可行的话想知道下原因，因为从这个属性描述和实现上看似乎是可行的。并不是说之前的方法有问题

huangjiapei_o2800 · 2026 年3 月 1 日 01:55

模仿已有的配置即可

liujie_11 · 2026 年3 月 1 日 01:58

没有呀，没有FE的例子呀。
这个问题我上下个sig沟通一下吧

aliens_to_mars · 2026 年3 月 2 日 03:51

FE告警对应的就是FatalError，对应方法SetFaultByBios，对应属性FaultByBios

事件类型	事件名称	正确数据源	说明
可纠正错误 (CE)	`PCIeCard.PCIeCardCEHardFailure`	`PCIeDevice_1.PredictiveFault`	使用预测性故障标志位作为CE事件触发条件
不可纠正错误 (UCE)	`PCIeCard.PCIeCardUncorrectableErr`	`PCIeDevice_1.UCEByBIOS` 或组合逻辑	来自BIOS上报的UCE状态或诊断故障组合
严重故障 (FE)	`PCIeCard.PCIeCardFatalErr`	`PCIeDevice_1.DiagnosticFault`	用于标识严重硬件故障

话题		回复	浏览量
openUBMC 25.06 版本适配E810网卡，PCIe卡信息未显示 Hardware SIG 提问求助	2	178	2025 年8 月 23 日
pcie_device组件中RPC方法SetPcieErrorStatus在哪里被调用交流互助区提问求助	3	73	2025 年11 月 4 日
自定义事件触发问题交流互助区提问求助	2	138	2025 年10 月 28 日
RASTool注入未触发内存CE告警交流互助区提问求助	11	108	2026 年5 月 14 日
【RAS】通过rastool注入cpu uce告警之后，日志有打印，但实际无uce告警产生交流互助区提问求助	9	99	2026 年1 月 23 日

pcie设备UCE\CE\FE事件的配置方法

总结

PCIe设备UCE/CE/FE事件配置方法（基于2509版openUBMC）

概述

正确的事件数据源映射

推荐配置方式（华为适配模式）

推荐事件配置示例

1. 配置 `PCIeCardCEHardFailure` 事件

2. 配置 `PCIeCardUncorrectableErr` 事件

3. 配置 `PCIeCardFatalErr` 事件

数据源设置与服务注册

建议修改点（对比您的原始配置）

最佳实践建议

使用抽象层状态字段

启用组合条件判断

动态启用控制

确保版本号更新

验证工具使用

总结

pcie设备UCE\CE\FE事件的配置方法

总结

PCIe设备UCE/CE/FE事件配置方法（基于2509版openUBMC）

概述

正确的事件数据源映射

推荐配置方式（华为适配模式）

推荐事件配置示例

1. 配置 PCIeCardCEHardFailure 事件

2. 配置 PCIeCardUncorrectableErr 事件

3. 配置 PCIeCardFatalErr 事件

数据源设置与服务注册

建议修改点（对比您的原始配置）

最佳实践建议

使用抽象层状态字段

启用组合条件判断

动态启用控制

确保版本号更新

验证工具使用

总结

相关话题

1. 配置 `PCIeCardCEHardFailure` 事件

2. 配置 `PCIeCardUncorrectableErr` 事件

3. 配置 `PCIeCardFatalErr` 事件