背景
为增加系统可靠性,BMC提供HBM故障模式识别及隔离容错功能,HBM内存硬失效模式检测方式支持专家规则及巡检规则两种方式
整体方案
通过北向接口调用查询、修改资源协作接口属性,查询、修改HBM内存硬失效模式检测方式
关联ISSUE
https://gitcode.com/openUBMC/mdb_interface/issues/261
评审点
新增资源协作接口属性,表示HBM内存硬失效模式检测方式,并支持修改
详细描述
评审点一:新增HBM内存硬失效模式检测方式
资源path:/bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
应用场景:查询、修改HBM内存硬失效模式检测方式
持久化类型:掉电持久化
权限: 读权限:ReadOnly 写权限:DiagnoseMgmt
具体如下:
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| HbmHardFailureDetectionMode | 新增属性 | s | 可读写,R:ReadOnly W:DiagnoseMgmt | 掉电持久化 | true | HBM内存硬失效模式检测方式。取值: “ExpertRule”-通专家规则检测硬失效 “PatrolScrub”- 通过巡检检测硬失效 “” - 未知 |
不能设置为"" |
属性变更后记录操作日志:
成功:Set the NPU HBM hard failure detection mode to PatrolScrub/ExpertRule successfully
失败:Set the NPU HBM hard failure detection mode failed
评审结论
同意新增资源协作接口属性,用于查询、修改HBM内存硬失效模式检测方式
path:/bmc/kepler/Systems/${SystemId}/FDMDomain
interface: bmc.kepler.Systems.NPUFDMService
新增属性
- HbmHardFailureDetectionMode:表示HBM内存硬失效模式检测方式,签名 s,可读写,读权限: ReadOnly,写权限:DiagnoseMgmt,默认值"",发送变更通知事件
遗留问题
更改属性名称中文为:HBM内存硬失效模式检测方式
结论:已修改属性名称中文为:HBM内存硬失效模式检测方式