背景:kunlun2280V2+Atlas300IPro,模拟超温告警测试,使卡真实温度超过105度。
出现如下现象与问题,请帮忙确定:
1、产生1个紧急不可纠正错误告警(3944),卡温度从105度下降到正常范围内后,告警不消失。当手动AC后告警恢复,是否符合预期?
2、超温后,重启掉卡,BMC无法识别slot8槽位卡,当手动AC后正常识别,是否符合预期?
3、超温时,伴随产生3941、3942两条告警信息,卡温度正常范围后告警恢复。此两条告警是什么意思?在NPU过温时出现这两个告警,是否符合预期?
Longbow
(ZhangZhiyang)
2
1、这个告警是带内报上来的,具体上报逻辑是否符合预期建议询问卡侧的同学
麻烦提供一下一键收集日志,以及模拟超温和不可恢复告警后带内有卡吗?
1 个赞
1、日志已发送邮箱: huangding12@huawei.com
2、模拟出现告警后BMC显示有卡,OS系统卡死不可操作。BMC选择强制重启后,OS系统正常,但带内带外超温槽位卡不识别(无卡),后执行AC告警恢复,卡带内带外可识别
当前触发这些告警的背景是模拟超温,帮忙确定下这些告警和卡的不可纠正错是否是该场景下触发的正常现象。