【已评审】新增资源树协作接口-支持OTH_PCIE_Status传感器原子能力

SSUE链接
【修改描述】支持OTH_PCIE_Status传感器原子能力

评审背景

  • 实现RAS事件可灵活配置、扩展和能力对外开放;满足IPMI、Redfish RAS相关规范;支持原始数据查询,支撑伙伴/客户实现自规划差异化特性。

需求

  • 支持OTH_PCIE_Status传感器

当前现状与差距/问题分析:

  • 现有PCIeRASCollector类负责PCIe设备RAS故障中断汇聚操作,提供已知PCIe设备故障汇聚上报能力;带内上报未知PCIe设备故障,即通过上报的SBDF无法匹配到PCIE设备时,该故障无相应类/属性承载,不能满足客户需求,需要新增UnknownPCIeRASCollector类去承载

决策点

  • 新增UnknownPCIeRASCollector接口

评审点

  • 新增UnknownPCIeRASCollector接口,承载带内上报未知PCIe设备故障中断汇聚类

详细描述

1、资源协作接口新增接口

路径: /bmc/kepler/Systems/:SystemId/FDMDomain/PCIeRASCollector
接口: bmc.kepler.Systems.FDMDomain.UnknownPCIeRASCollector
变化类型:新增接口和属性
应用场景:PCIe类型故障上报,但不能匹配到具体PCIE设备
持久化类型: 不持久化
操作权限: ReadOnly

具体如下:

属性名称 变化类型 签名 读写&权限 持久化 变化通知 接口说明 接口约束
CorrectableError 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生可纠正错误,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
CorrectableErrorStorm 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生可纠正错误风暴,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
UncorrectableError 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生不可纠正错误,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
FatalError 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生致命错误,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
ParityError 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生奇偶校验错误,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
SystemError 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生系统错误,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
BandwidthReduction 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生降带宽事件,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
LinkSpeedReduced 新增属性 y R:ReadOnly
W:ReadOnly
true PCIe设备发生降速率事件,取值: 0-未发生,1-发生,默认值0。PCIe设备发生故障触发属性置位。
DevSegment 新增属性 y R:ReadOnly
W:ReadOnly
false PCIe设备的root port Segment,默认值:255。随错误上报赋值。
DevBus 新增属性 y R:ReadOnly
W:ReadOnly
false PCIe设备的root port Bus,默认值:255。随错误上报赋值。
DevDevice 新增属性 y R:ReadOnly
W:ReadOnly
false PCIe设备的root port Device,默认值:255。随错误上报赋值。
DevFunction 新增属性 y R:ReadOnly
W:ReadOnly
false PCIe设备的root port Function,默认值:255。随错误上报赋值。

评审结论

同意新增资源协作接口

路径: /bmc/kepler/Systems/:SystemId/FDMDomain/PCIeRASCollector
接口: bmc.kepler.Systems.FDMDomain.UnknownPCIeRASCollector
变化类型:新增接口和属性
应用场景:PCIe类型故障上报,但不能匹配到具体PCIE设备
持久化类型: 不持久化
操作权限: ReadOnly

遗留问题

一、3秒自动恢复机制可能会丢事件,需要和Event组件讨论可靠性方案
结论: 属性恢复方案修改
恢复方案:某次故障事件发生时,先恢复属性(恢复上一次故障),延时后再置位