// 此模板仅供参考,如果不适用可以修改
问题描述
模拟访问空洞地址导致CPU超时挂死后,BMC Web端和sel没告警,预期有存在CPU错误告警
环境信息
重现步骤
1、模拟CPU访问空洞地址导致CPU超时挂死

2、查看FDM记录,发现有记录数据
3、检查BMC有无sel告警
BMC未上报sel告警
4、和坂田硬件专家交流后定下如下方案:
触发CPU挂死后,逻辑会拉CATERR管脚(待验证),主板sr已配置Scanner_Cpu2CATERRAccessor,BMC根据CPU.CATERR来配置告警即可以满足bios诉求。
实测CPU挂死前后,CPU.CATERR的值都不会改变,该方案行不通,需坂田硬件同事定位。
期望结果
预期BMC能上报SEL告警
实际结果
1、BMC未上报SEL告警
2、CPU挂死前后,CPU.CATERR的值都不会改变
附件日志
查看CPU1和CPU2的属性信息.txt (31.0 KB)
空洞地址步骤.txt (17.5 KB)
我这边并不知道对应CPU的哪个管脚,只能从主板SR中看到如下定义,这也是逻辑计算后提供给BMC使用的。
BeanLin
(Bean Lin)
4
1.由于CATERR不指向明确硬件故障,所以openubmc默认版本不支持Caterr触发SEL告警,目前如果需要支持CATERR告警,需要自行新增告警码和SR配置
2.可以通过”系统事件”页签查看有对应事件码0x2C00002F,显示系统异常事件提示
目前如果需要支持CATERR告警,需要自行新增告警码和SR配置
=== SR配置scanner和对应的告警,前提是故障触发后,CATERR属性会发生变化吧,目前看来并没有变,所以BMC没法通过监控它触发告警,我们就是希望找到一个可以指向CPU UCE故障监控的属性
BeanLin
(Bean Lin)
6
1.因为只给了Scanner的配置,没有读取具体值,可以提供一键收集日志分析具体是配置缺失还是功能异常
2.可以监控Scanner_SystemStatus对象的value,0为正常,bit0置位时表示IERR
BeanLin
(Bean Lin)
8
bit0表示系统挂死,是一个综合汇聚信息,不仅包含CPU UCE,甚至总线异常,核超时场景都会触发bit0置位;
例如你的用例:“模拟CPU访问空洞地址导致CPU超时挂死”的命令,其实不是模拟,实际就是让核指令访问超时触发挂死,不属于CPU UCE场景,本身是没有RAS故障的;
y00051691
(kunlun_yajingtian)
9
那感觉监听这个属性不合适,我们有提供日志,帮忙分析一下吧
那感觉监听这个属性不合适,我们有提供日志,帮忙分析一下吧
BeanLin
(Bean Lin)
11
简单一句合适不合适很难猜透您心思,麻烦提清楚诉求,发帖问答效率很低,如果是解决方案类型建议联系PAE团队组织会议沟通