yjshen
(长江计算_申永军)
1
// 此模板仅供参考,如果不适用可以修改
问题描述
使用rastool 工具注错CPU,bmc未记录UCE和CE日志
环境信息
-
操作系统:[如 Ubuntu 24.04]
-
软件版本:OpenUBMC2512
-
硬件配置:[如 CPU、内存等]
重现步骤
使用rastool 工具注错CPU,bmc未记录UCE和CE日志
fdm_log.zip (7.9 KB)
期望结果
使用rastool 工具注错CPU,bmc正常记录UCE和CE日志
实际结果
使用rastool 工具注错CPU,bmc未记录UCE和CE日志
尝试过的解决方案
[列出您已经尝试过的解决方案及结果]
分析结论
[详细总结您对此问题的分析结论]
BeanLin
(Bean Lin)
3
亲,根据你提供的日志,从5月11日到最近里面全是CPU的错误:
Line 5722: Socket: CPU1 DIE: TotemB Module: CPU CORE0 Sub Module: LSU
Line 5743: Socket: CPU1 DIE: Nimbus0 Module: DISP_IO_MGMT
Line 5762: Socket: CPU1 DIE: Nimbus0 Module: DISP_IO_MGMT
Line 5781: Socket: CPU1 DIE: TotemB Module: CPU CORE0 Sub Module: L2C
Line 5802: Socket: CPU1 DIE: TotemB Module: CPU CORE0 Sub Module: LSU
Line 5823: Socket: CPU1 DIE: Nimbus0 Module: DISP_IO_MGMT
Line 5842: Socket: CPU1 DIE: Nimbus0 Module: HLLC0
简单一句注错CPU
注入什么错?注错命令是什么?什么时候注错?描述不清建议通过PAE组织线下会议,能有更详细的解答
yjshen
(长江计算_申永军)
5
yjshen
(长江计算_申永军)
7
CPU UCE注错 —未记录事件
BIOS修改
Ce Report Policy=Enabled
Error Inject=Enabled
OS : (openEuler 22.03 (LTS-SP4))
使用注错命令
./RASTool --E=0x0006
系统界面查看dmesg报错日志,OS系统正常
BMC界面查看 当前告警平台无告警,系统事件无记录,传感器事件无记录
BeanLin
(Bean Lin)
8
你注入的错误不绝对是硬件故障,所以官方固件策略是仅记录fdm_log,不进行告警或传感器事件记录;
但提供资源树的原子能力,可自行适配SR后完成需求:
1.CPURAS类提供属性UncorrectableError:表示对应CPU是否出现UCE故障,注错后置为1,OS重启或上下电后清0;
2.CPURAS类提供属性CurrentPeriodCacheUncorrectableECCErrorCount:表示单次上电运行周期内,对应CPU出现Cache UCE的计数,注错后累+1,OS重启或上下电后清0;
3.CPURAS类提供属性LifeTimeCacheUncorrectableECCErrorCount:表示对应CPU生命周期内,出现Cache UCE的计数,注错后累+1,器件更换后清0;
BeanLin
(Bean Lin)
10
请仔细阅读,已经说了不支持告警或传感器事件记录,那么你觉得这个配置的DiagnosticFault还会置为么?有配置!=会触发
yjshen
(长江计算_申永军)
11
那就是注错命令有问题呗,需要注入的错误一定是硬件故障。那么需要怎么优化注错命令来测试bmc记录cpu ce和uce的能力呢?
yjshen
(长江计算_申永军)
13
注入l2c_ue 错误,os 卡住,fdm.log 和bmc事件日志都没有记录,是注错命令使用的有问题吗?
BeanLin
(Bean Lin)
14
请及时Rastool工具的提供方申请使用指导,这部分能力不在BMC!!提问请聚焦BMC问题
简单指导:可以通过RASTool -l看到注错支持的指令集合,一般的L2C的UE是./RASTool –E=0x0002
BeanLin
(Bean Lin)
16
好的,一般通过-h和-l选项可以完成基本注错了,后面的其他参数可以不选