问题描述
OS下升级AI卡的mcu会上报告警,mcu升级成功后告警消失
环境信息
-
操作系统:OS:“openEuler 22.03 (LTS-SP4)” 内核版本:5.10.0-216.0.0.115.oe2203sp4.aarch64
-
软件版本:OpenUBMC2509
-
硬件配置:[如 CPU、内存等]
重现步骤
-
OS下升降级300I A2 64G卡的MCU
升级命令:npu-smi upgrade -t mcu -i 0 -f Ascend-hdk-910b-mcu_25.53.33.hpm
-
升级过程中,登录BMC Web,查看告警事件->当前告警,上报轻微告警事件:
-
mcu完全升级成功后,告警消失
-
查看该告警触发条件,关联的是CpldStatus,升级过程中的确会变化,导致事件触发。
期望结果
升级过程中与AI卡的连接确实会中断,但是这个过程应该做对应的屏蔽处理;不应当短暂的产生,然后又消失。
实际结果
300I A2 mcu升级过程中的短暂告警,升级完后自行消失
尝试过的解决方案
1.尝试定位触发原因,发现目前的实现就是如此;但是从设计角度来说,应当在升级过程中不报,其他真正通信异常时才上报。




