评审点一
NPUCard接口新增属性ChipHealthStatus和ChipFaultDescription
背景
支持Atlas卡告警精细化需求,新增的精细化告警需要获取mcu读到的故障状态来触发,需要mcu读到的故障码来扩充告警描述。
决策点
NPUCard接口新增属性ChipHealthStatus和ChipFaultDescription
详细描述
资源path:/bmc/kepler/Systems/${SystemId}/PCIeDevices/PCIeCards/NPUCards/${Id}
资源interface:bmc.kepler.Systems.NPUCard
变化类型:新增属性
应用场景:触发告警时使用ChipFaultDescription来扩展告警描述信息。使用ChipHealthStatus来触发相应告警
持久化类型: 不持久化
操作权限:ReadOnly
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| ChipHealthStatus | 新增属性 | y | R:ReadOnly | 不持久化 | true | NPU卡精细化告警级别 0:代表无告警 1:代表一般告警 2:代表严重告警 3:代表紧急告警 |
默认值为0 |
| ChipFaultDescription | 新增属性 | s | R:ReadOnly | 不持久化 | false | 精细化告警故障描述信息 示例1:Error code:7602, 7605. NPU EventID: 0xa42f3918, 0xa8028801 示例2:Error code:NA. NPU EventID: NA. |
默认值为空串 |
评审结论
同意在bmc.kepler.Systems.NPUCard接口新增如下属性
- 新增属性ChipHealthStatus,签名y,只读,不持久化,发送变化事件
- 新增属性ChipFaultDescription,签名s,只读,不持久化,不发生变化事件
遗留问题
已确定单卡的不同严重程度的告警事件为高级的告警覆盖低级的告警(低的deassert,高的assert),同一严重等级的告警再次触发时,会更新告警描述信息。
评审点二
lcn_mgmt接口新增属性IsManaged
背景
网管/工具通过BMC redfish接口对LCNE设备进行固件升级、模式切换等操作后,LCNE设备需要复位,网管无法感知到LCNE设备是否复位成功并与BMC恢复连接,需要新增纳管成功属性进行标识
决策点
lcn_mgmt接口新增属性IsManaged
详细描述
资源path:/bmc/kepler/LCNs/${Id}
资源interface:bmc.kepler.LCN.Manage
变化类型:新增属性 IsManaged
应用场景:标明BMC已纳管LCNE成功的属性
持久化类型: 不持久化
操作权限:ReadOnly
| 属性名称 | 变化类型 | 签名 | 读写&权限 | 持久化 | 变化通知 | 接口说明 | 接口约束 |
|---|---|---|---|---|---|---|---|
| IsManaged | 新增属性 | b | R:ReadOnly | 不持久化 | true | BMC已成功纳管LCNE的标志位 取值说明: 若BMC与LCNE建立连接并成功完成一次信息轮询,则为true; 若BMC与LCNE断连或取消纳管,则为false |
无 |
评审结论
同意在bmc.kepler.LCN.Manage接口新增如下属性
- 新增属性IsManaged,签名b,只读,不持久化,发送变化事件