背景
支持NPU HBM内存PS UCE告警开、关可配置。支持客户灵活应用PS UCE告警策略,提升NPU HBM内存的亚健康主动感知能力。
关联ISSUE
整体方案
新增资源协作属性,通过 redfish 接口实现对NPU HBM 内存中 PS UCE 告警开关的控制,支持生产、运维及网管人员灵活配置告警功能,满足客户在内存高可靠性场景下的诉求,及时反馈 PS UCE 事件
评审点
新增资源协作属性
详细描述
新增资源协作属性
资源path: /bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
变化类型:新增属性
应用场景:开启或关闭NPU HBM内存巡检不可纠正错误告警功能
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| HbmPatrolScrubAlarmEnabled | 新增属性 | b | R:ReadOnly W:BasicSetting | PoweroffPer | true | NPU HBM内存巡检发现不可纠正错误(PS UCE)后BMC是否产生告警开关, true:打开;false:关闭 | 默认为false:关闭 |
属性变更后记录操作日志:Enabled/Disabled alarm on NPU HBM patrol scrubbing uncorrectable error successfully
评审结论
1、同意资源协作接口bmc.kepler.Systems.NPUFDMService新增属性HbmPatrolScrubAlarmEnabled
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| HbmPatrolScrubAlarmEnabled | 新增属性 | b | R:ReadOnly W:BasicSetting | PoweroffPer | true | NPU HBM内存巡检发现不可纠正错误(PS UCE)后,BMC是否产生告警,true - 产生告警,false - 不产生告警 | 默认为false |