【已评审】支持NPU 故障以及统计原子能力

背景

实现RAS事件可灵活配置、扩展和能力对外开放;满足IPMI、Redfish RAS相关规范;支持原始数据查询,支撑伙伴/客户实现自规划差异化特性。

关联ISSUE

支持NPU CE/UCE故障原子能力和Cache UCE统计原子能力

评审点

评审点1:资源协作接口属性CurrentPeriodCacheUncorrectableECCErrorCount、LifeTimeCacheUncorrectableECCErrorCount、CorrectableError、UncorrectableError

资源协作接口bmc.kepler.Systems.FDMDomain.NPURAS下新增属性

CurrentPeriodCacheUncorrectableECCErrorCount:NPU启动周期内Cache UCE统计计数

LifeTimeCacheUncorrectableECCErrorCount:NPU生命周期内Cache UCE统计计数

CorrectableError:NPU CE故障原子能力

UncorrectableError:NPU UCE故障原子能力

详细描述

资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id

资源interface:bmc.kepler.Systems.FDMDomain.NPURAS

变化类型: 新增资源协作接口属性

新增属性:

属性名称 签名 只读 变化通知 属性描述 取值范围 访问权限 属性来源 持久化类型 易变属性
CurrentPeriodCacheUncorrectableECCErrorCount u true false 统计NPU Cache模块运行周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。系统上下电/系统复位/NPU复位,统计次数清零。 0~0xFFFFFFFF R:ReadOnly 错误上报 复位持久化 false
LifeTimeCacheUncorrectableECCErrorCount u true false 统计NPU Cache模块生命周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。更换NPU部件时,统计次数清零。 0~0xFFFFFFFF R:ReadOnly 错误上报 掉电持久化 false
CorrectableError y true true NPU发生可纠正错误,取值:0-未发生,1-发生,默认为0。系统上下电/系统复位/NPU复位,恢复为0。 0:未发生
1:发生
默认为0
R:ReadOnly 错误上报 复位持久化 false
UncorrectableError y true true NPU发生不可纠正错误,取值:0-未发生,1-发生,默认为0。系统上下电/系统复位/NPU复位,恢复为0。 0:未发生
1:发生
默认为0
R:ReadOnly 错误上报 复位持久化 false

是否准备好AI预审

评审结论

通过,具体结论

1.同意资源协作接口bmc.kepler.Systems.FDMDomain.NPURAS下新增属性

CurrentPeriodCacheUncorrectableECCErrorCount: 用以统计NPU Cache模块运行周期内发生的不可纠正错误次数,属性签名为u ,只读,复位持久化,不需要发送变化通知

LifeTimeCacheUncorrectableECCErrorCount:用以统计NPU Cache模块生命周期内发生的不可纠正错误次数,属性签名为u ,只读,掉电持久化,不需要发送变化通知

CorrectableError:用以标识NPU发生可纠正错误,属性签名为y ,只读,复位持久化,需要发送变化通知

UncorrectableError:用以标识NPU发生不可纠正错误,属性签名为y ,只读,复位持久化,需要发送变化通知

遗留问题

本议题线下审核通过,同意新增议题所述的资源协作接口属性