ISSUE链接:
支持HBM故障传感器事件原子能力和支持CPU/DDR内存故障度量统计
评审背景
1、故障诊断支持HBM故障传感器事件原子能力,提供定制原子能力,伙伴/客户可以根据原子能力进行二次开发
2、CPU/DDR内存故障度量统计提供给redfish接口查询
评审点
评审点1:
资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.CPURAS
变化类型:新增属性
应用场景:统计运行周期和生命周期CPU Cache模块发生了不可纠正错误次数
持久化类型:运行周期(BMC复位持久化)、生命周期(BMC掉电持久化)
操作权限:ReadOnly
评审点2:
资源path:
/bmc/kepler/Systems/:SystemId/FDMDomain/MemoryRAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryRAS
变化类型:新增属性
应用场景:统计运行周期和生命周期内存发生了不可纠正错误次数
持久化类型:运行周期(BMC复位持久化)、生命周期(BMC掉电持久化)
持久化类型:复位持久化
操作权限:ReadOnly
评审点3:
资源path:
/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS
变化类型:新增属性
应用场景:HBM自愈成功事件上报
持久化类型:BMC复位持久化
操作权限:ReadOnly
详细描述
OBJECT(path) | interface | method/property/signal | type | 权限 UserMgmt/BasicSetting/KVMMgmt/VMMMgmt/SecurityMgmt/PowerMgmt/DiagnoseMgmt/ReadOnly/ConfigureSelf |
属性 | 是否广播(是/否) | 是否持久化(否/临时/复位/掉电/永久) | 属性值来源(CSR/代码) | 取值类型 | 备注 |
---|---|---|---|---|---|---|---|---|---|---|
/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id | bmc.kepler.Systems.FDMDomain.CPURAS | CurrentPeriodCacheUncorrectableECCErrorCount | property | ReadOnly | ro | 是 | 复位 | 代码 | U32 | 统计CPU Cache模块运行周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。系统上下电/复位/更换部件时,统计次数清零。 |
LifeTimeCacheUncorrectableECCErrorCount | property | ReadOnly | ro | 是 | 掉电 | 代码 | U32 | 统计CPU Cache模块生命周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。更换部件时,统计次数清零。 | ||
bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS | IsolationStatus | property | ReadOnly | ro | 是 | 复位 | 代码 | U8 | 内存隔离自愈执行状态,取值范围:0(未执行隔离)、1(已成功执行隔离)、其他(预留)。系统上下电/复位时,恢复到未执行隔离状态。 | |
/bmc/kepler/Systems/:SystemId/FDMDomain/MemoryRAS/:Id | bmc.kepler.Systems.FDMDomain.MemoryRAS | CurrentPeriodUncorrectableECCErrorCount | property | ReadOnly | ro | 是 | 复位 | 代码 | U32 | 统计内存运行周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。系统上下电/复位/更换部件时,统计次数清零。 |
LifeTimeUncorrectableECCErrorCount | property | ReadOnly | ro | 是 | 掉电 | 代码 | U32 | 统计内存生命周期内发生的不可纠正错误次数,取值范围:0~0xFFFFFFFF。更换部件时,统计次数清零。 | ||
/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id | bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS | IsolationStatus | property | ReadOnly | ro | 是 | 复位 | 代码 | U8 | 内存隔离自愈执行状态,取值范围:0(未执行隔离)、1(已成功执行隔离)、其他(预留)。系统上下电/复位时,恢复到未执行隔离状态。 |
评审结论
同意新增属性
1、
资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.CPURAS
①新增CurrentPeriodCacheUncorrectableECCErrorCount属性
持久化类型:BMC复位持久化
操作权限:ReadOnly
②新增LifeTimeCacheUncorrectableECCErrorCount属性
持久化类型:BMC掉电持久化
操作权限:ReadOnly
2、
资源path:/bmc/kepler/Systems/:SystemId/FDMDomain/MemoryRAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryRAS
①新增CurrentPeriodUncorrectableECCErrorCount属性
持久化类型:BMC复位持久化
操作权限:ReadOnly
②新增LifeTimeUncorrectableECCErrorCount属性
持久化类型:BMC掉电持久化
操作权限:ReadOnly
3、
资源path:
/bmc/kepler/Systems/:SystemId/FDMDomain/CPURAS/:Id
/bmc/kepler/Systems/:SystemId/FDMDomain/NPURAS/:Id
资源interface:bmc.kepler.Systems.FDMDomain.MemoryOnChipRAS
新增:IsolationStatus属性
持久化类型:BMC复位持久化
操作权限:ReadOnly
遗留事项
1、需要说明IsolationStatus属性作用以及取值范围,组内讨论备注内容进行说明
结论:与组内SE对齐,详细描述新增的属性的备注信息,说明该属性的作用、场景、取值范围以及恢复策略
2、CPU和DDR内存故障度量统计极限情况下,发生的频率,以及针对于flash的影响
结论:需要在代码开发层面压测这些属性对flash写入量的影响