【已评审】支持HBM UCE故障预测功能使能资源协作接口评审

ISSUE链接

【需求】支持HBM内存故障预测功能使能-mdb_interface-GitCode

背景

HBM内存UCE对NPU模型训推业务影响大。为减轻UCE的影响,BMC侧提供HBM内存UCE故障预测特性开关,默认关闭;并提供故障预测模型的模式配置选择,可选择准确率优先/覆盖率优先/准确率覆盖率均衡的上报模式,默认准确率优先模式。

决策点

新增HBM UCE故障预测功能使能资源协作接口

详细描述

评审点一:新增HBM内存UCE故障预测特性开关接口

资源path:/bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
应用场景:HBM内存UCE故障预测特性开关
持久化类型:掉电持久化
权限: 读权限:ReadOnly 写权限:DiagnoseMgmt
具体如下:

属性名称 变化类型 签名 读写&权限 持久化 变化通知 接口说明 接口约束
HbmFaultPredictionEnabled 新增属性 b 可读写 R:ReadOnly W:DiagnoseMgmt 掉电持久化 true HBM内存UCE故障预测特性开关。取值:true-开启,false-关闭,默认值false。恢复出厂设置时,恢复默认值。

评审点二:新增HBM内存UCE故障预测模式修改接口

资源path:/bmc/kepler/Systems/${SystemId}/FDMDomain
资源interface: bmc.kepler.Systems.NPUFDMService
应用场景:HBM内存UCE故障预测模式修改
持久化类型:掉电持久化
权限: 读权限:ReadOnly 写权限:DiagnoseMgmt
具体如下:

属性名称 变化类型 签名 读写&权限 持久化 变化通知 接口说明 接口约束
HbmFaultPredictionMode 新增属性 s 可读写 R:ReadOnly W:DiagnoseMgmt 掉电持久化 true HBM内存UCE故障预测模式配置。取值:“Balanced”-均衡模式, “PrecisionFirst”-准确率优先模式, “RecallFirst”-覆盖率优先模式,默认值"PrecisionFirst"。恢复出厂设置时,恢复默认值。

评审结论

1、同意新增资源协作接口属性,用于控制NPU HBM内存UCE故障预测使能状态

path:/bmc/kepler/Systems/${SystemId}/FDMDomain
interface: bmc.kepler.Systems.NPUFDMService
新增属性

  • HbmFaultPredictionEnabled:表示NPU HBM内存UCE故障预测使能状态,签名b,可读写,读权限: ReadOnly,写权限:DiagnoseMgmt,默认值false,发送变更通知事件

2、同意新增资源协作接口属性,用于控制NPU HBM内存UCE故障预测模式

path:/bmc/kepler/Systems/${SystemId}/FDMDomain
interface:bmc.kepler.Systems.NPUFDMService
新增属性

  • HbmFaultPredictionMode: 表示NPU HBM内存UCE故障预测模式,签名s,可读写,读权限: ReadOnly,写权限:DiagnoseMgmt,默认值”PrecisionFirst”,发送变更通知事件

遗留问题

1、新增属性的默认值需要由对应的决策组织给出

结论:
(1)NPU HBM内存UCE故障预测功能仅在搭配NPU的产品上开启, 因此属性HbmFaultPredictionEnabled默认值设置为false, 改由产品配置仓中配置。
(2)属性HbmFaultPredictionMode(NPU HBM内存UCE故障预测模式)的默认值设定为”PrecisionFirst”