【已评审】支持HBM故障传感器事件原子能力和支持CPU/DDR内存故障度量统计

ISSUE链接

支持HBM故障传感器事件原子能力和支持CPU/DDR内存故障度量统计
评审背景
1、故障诊断支持HBM故障传感器事件原子能力,提供定制原子能力,伙伴/客户可以根据原子能力进行二次开发
2、CPU/DDR内存故障度量统计提供给redfish接口查询
评审点

评审点1:
资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.CPURAS
变化类型:新增属性
应用场景:统计运行周期和生命周期CPU Cache模块发生了不可纠正错误次数
持久化类型:运行周期(BMC复位持久化)、生命周期(BMC掉电持久化)
操作权限:ReadOnly
评审点2:
资源path:
/bmc/kepler/Systems/:SystemId/FDMDomain/MemoryRAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryRAS
变化类型:新增属性
应用场景:统计运行周期和生命周期内存发生了不可纠正错误次数
持久化类型:运行周期(BMC复位持久化)、生命周期(BMC掉电持久化)
持久化类型:复位持久化
操作权限:ReadOnly
评审点3:
资源path:
/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS
变化类型:新增属性
应用场景:HBM自愈成功事件上报
持久化类型:BMC复位持久化
操作权限:ReadOnly

详细描述

OBJECT(path) interface method/property/signal type 权限
UserMgmt/BasicSetting/KVMMgmt/VMMMgmt/SecurityMgmt/PowerMgmt/DiagnoseMgmt/ReadOnly/ConfigureSelf
属性 是否广播(是/否) 是否持久化(否/临时/复位/掉电/永久) 属性值来源(CSR/代码) 取值类型 备注
/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id bmc.kepler.Systems.FDMDomain.CPURAS CurrentPeriodCacheUncorrectableECCErrorCount property ReadOnly ro 复位 代码 U32 统计CPU Cache模块运行周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。系统上下电/复位/更换部件时,统计次数清零。
LifeTimeCacheUncorrectableECCErrorCount property ReadOnly ro 掉电 代码 U32 统计CPU Cache模块生命周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。更换部件时,统计次数清零。
bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS IsolationStatus property ReadOnly ro 复位 代码 U8 内存隔离自愈执行状态,取值范围:0(未执行隔离)、1(已成功执行隔离)、其他(预留)。系统上下电/复位时,恢复到未执行隔离状态。
/bmc/kepler/Systems/:SystemId/FDMDomain/MemoryRAS/:Id bmc.kepler.Systems.FDMDomain.MemoryRAS CurrentPeriodUncorrectableECCErrorCount property ReadOnly ro 复位 代码 U32 统计内存运行周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。系统上下电/复位/更换部件时,统计次数清零。
LifeTimeUncorrectableECCErrorCount property ReadOnly ro 掉电 代码 U32 统计内存生命周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。更换部件时,统计次数清零。
/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS IsolationStatus property ReadOnly ro 复位 代码 U8 内存隔离自愈执行状态,取值范围:0(未执行隔离)、1(已成功执行隔离)、其他(预留)。系统上下电/复位时,恢复到未执行隔离状态。

评审结论
同意新增属性
1、
资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.CPURAS
①新增CurrentPeriodCacheUncorrectableECCErrorCount属性
持久化类型:BMC复位持久化
操作权限:ReadOnly
②新增LifeTimeCacheUncorrectableECCErrorCount属性
持久化类型:BMC掉电持久化
操作权限:ReadOnly
2、
资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/MemoryRAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryRAS
①新增CurrentPeriodUncorrectableECCErrorCount属性
持久化类型:BMC复位持久化
操作权限:ReadOnly
②新增LifeTimeUncorrectableECCErrorCount属性
持久化类型:BMC掉电持久化
操作权限:ReadOnly
3、
资源path:
/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS
新增:IsolationStatus属性
持久化类型:BMC复位持久化
操作权限:ReadOnly

遗留事项
1、需要说明IsolationStatus属性作用以及取值范围,组内讨论备注内容进行说明
结论:与组内SE对齐,详细描述新增的属性的备注信息,说明该属性的作用、场景、取值范围以及恢复策略
2、CPU和DDR内存故障度量统计极限情况下,发生的频率,以及针对于flash的影响
结论:需要在代码开发层面压测这些属性对flash写入量的影响