【已评审】新增开关控制NPU HBM内存巡检不可纠正错误告警策略

背景

支持NPU HBM内存PS UCE告警开、关可配置。支持客户灵活应用PS UCE告警策略,提升NPU HBM内存的亚健康主动感知能力。

关联ISSUE

[需求]: 支持开关控制HBM内存巡检不可纠正错误告警使能

整体方案

新增资源协作属性,通过 redfish 接口实现对NPU HBM 内存中 PS UCE 告警开关的控制,支持生产、运维及网管人员灵活配置告警功能,满足客户在内存高可靠性场景下的诉求,及时反馈 PS UCE 事件

评审点

新增资源协作属性

详细描述

新增资源协作属性

资源path: /bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
变化类型:新增属性
应用场景:开启或关闭NPU HBM内存巡检不可纠正错误告警功能

属性名称 变化类型 签名 读写&权限 持久化 变化通知 接口说明 接口约束
HbmPatrolScrubAlarmEnabled 新增属性 b R:ReadOnly W:BasicSetting PoweroffPer true NPU HBM内存巡检发现不可纠正错误(PS UCE)后BMC是否产生告警开关, true:打开;false:关闭 默认为false:关闭

属性变更后记录操作日志:Enabled/Disabled alarm on NPU HBM patrol scrubbing uncorrectable error successfully

评审结论

1、同意资源协作接口bmc.kepler.Systems.NPUFDMService新增属性HbmPatrolScrubAlarmEnabled

属性名称 变化类型 签名 读写&权限 持久化 变化通知 接口说明 接口约束
HbmPatrolScrubAlarmEnabled 新增属性 b R:ReadOnly W:BasicSetting PoweroffPer true NPU HBM内存巡检发现不可纠正错误(PS UCE)后,BMC是否产生告警,true - 产生告警,false - 不产生告警 默认为false

遗留问题