如何监控CPU UCE故障并产生SEL

// 此模板仅供参考,如果不适用可以修改

问题描述

模拟访问空洞地址导致CPU超时挂死后,BMC Web端和sel没告警,预期有存在CPU错误告警

环境信息

  • 软件版本:lsp sp1

  • 硬件配置:主板sr:14060876_00000001020302068053.sr

重现步骤

1、模拟CPU访问空洞地址导致CPU超时挂死

image

2、查看FDM记录,发现有记录数据

3、检查BMC有无sel告警

BMC未上报sel告警

4、和坂田硬件专家交流后定下如下方案:

触发CPU挂死后,逻辑会拉CATERR管脚(待验证),主板sr已配置Scanner_Cpu2CATERRAccessor,BMC根据CPU.CATERR来配置告警即可以满足bios诉求。

实测CPU挂死前后,CPU.CATERR的值都不会改变,该方案行不通,需坂田硬件同事定位。

期望结果

预期BMC能上报SEL告警

实际结果

1、BMC未上报SEL告警

2、CPU挂死前后,CPU.CATERR的值都不会改变

附件日志

查看CPU1和CPU2的属性信息.txt (31.0 KB)

空洞地址步骤.txt (17.5 KB)

这边实际管脚的点平有被拉高吗?

我这边并不知道对应CPU的哪个管脚,只能从主板SR中看到如下定义,这也是逻辑计算后提供给BMC使用的。

1.由于CATERR不指向明确硬件故障,所以openubmc默认版本不支持Caterr触发SEL告警,目前如果需要支持CATERR告警,需要自行新增告警码和SR配置

2.可以通过”系统事件”页签查看有对应事件码0x2C00002F,显示系统异常事件提示

目前如果需要支持CATERR告警,需要自行新增告警码和SR配置

=== SR配置scanner和对应的告警,前提是故障触发后,CATERR属性会发生变化吧,目前看来并没有变,所以BMC没法通过监控它触发告警,我们就是希望找到一个可以指向CPU UCE故障监控的属性

1.因为只给了Scanner的配置,没有读取具体值,可以提供一键收集日志分析具体是配置缺失还是功能异常

2.可以监控Scanner_SystemStatus对象的value,0为正常,bit0置位时表示IERR