ISSUE链接
【需求】支持HBM内存故障预测功能使能-mdb_interface-GitCode
背景
HBM内存UCE对NPU模型训推业务影响大。为减轻UCE的影响,BMC侧提供HBM内存UCE故障预测特性开关,默认关闭;并提供故障预测模型的模式配置选择,可选择准确率优先/覆盖率优先/准确率覆盖率均衡的上报模式,默认准确率优先模式。
决策点
新增HBM UCE故障预测功能使能资源协作接口
详细描述
评审点一:新增HBM内存UCE故障预测特性开关接口
资源path:/bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
应用场景:HBM内存UCE故障预测特性开关
持久化类型:掉电持久化
权限: 读权限:ReadOnly 写权限:DiagnoseMgmt
具体如下:
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| HbmFaultPredictionEnabled | 新增属性 | b | 可读写 R:ReadOnly W:DiagnoseMgmt | 掉电持久化 | true | HBM内存UCE故障预测特性开关。取值:true-开启,false-关闭,默认值false。恢复出厂设置时,恢复默认值。 | 无 |
评审点二:新增HBM内存UCE故障预测模式修改接口
资源path:/bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
应用场景:HBM内存UCE故障预测模式修改
持久化类型:掉电持久化
权限: 读权限:ReadOnly 写权限:DiagnoseMgmt
具体如下:
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| HbmFaultPredictionMode | 新增属性 | s | 可读写 R:ReadOnly W:DiagnoseMgmt | 掉电持久化 | true | HBM内存UCE故障预测模式配置。取值:“Balanced”-均衡模式, “PrecisionFirst”-准确率优先模式, “RecallFirst”-覆盖率优先模式,默认值"PrecisionFirst"。恢复出厂设置时,恢复默认值。 | 无 |
评审结论
1、同意新增资源协作接口属性,用于控制NPU HBM内存UCE故障预测使能状态
path:/bmc/kepler/Systems/${SystemId}/FDMDomain
interface: bmc.kepler.Systems.NPUFDMService
新增属性
- HbmFaultPredictionEnabled:表示NPU HBM内存UCE故障预测使能状态,签名b,可读写,读权限: ReadOnly,写权限:DiagnoseMgmt,默认值false,发送变更通知事件
2、同意新增资源协作接口属性,用于控制NPU HBM内存UCE故障预测模式
path:/bmc/kepler/Systems/${SystemId}/FDMDomain
interface:bmc.kepler.Systems.NPUFDMService
新增属性
- HbmFaultPredictionMode: 表示NPU HBM内存UCE故障预测模式,签名s,可读写,读权限: ReadOnly,写权限:DiagnoseMgmt,默认值”PrecisionFirst”,发送变更通知事件
遗留问题
1、新增属性的默认值需要由对应的决策组织给出
结论:
(1)NPU HBM内存UCE故障预测功能仅在搭配NPU的产品上开启, 因此属性HbmFaultPredictionEnabled默认值设置为false, 改由产品配置仓中配置。
(2)属性HbmFaultPredictionMode(NPU HBM内存UCE故障预测模式)的默认值设定为”PrecisionFirst”