AweiHe
(华鲲-Hewei)
1
// 此模板仅供参考,如果不适用可以修改
问题描述
[在这里详细描述您遇到的问题]
环境信息
-
操作系统:Ubuntu 24.04
-
软件版本:如 OpenUBMC2509
-
硬件配置:[如 CPU、内存等]
重现步骤
setup那些就开启,阈值1,然后os下rastool工具注错0x1f那个,先连着注错10次,然后看fdm_diagnosis/fdm_output ,会打印dimm No.1 correctable error,然后等10分钟,再连续注错10次,看fdm output ,会打印个No.2,在等10分钟,注错10次,打印个No.3,bmc web就有dimm is in memory ce storm (sn: )
./RASTool --Se=1630V100
cat /proc/iomem |grep -i ram
./RASTool --E=0x1f --Sy=0x82088000000
./RASTool --E=0x1f --Sy=0x5fbf0000
-
[第一步]
-
[第二步]
-
[第三步]
期望结果
[您希望实现什么]
期望产生内存CE系统告警事件
0x01000017 MemoryUncorrectableErr
实际结果
[实际发生了什么,包含错误信息]
尝试过的解决方案
[列出您已经尝试过的解决方案及结果]
分析结论
[详细总结您对此问题的分析结论]
BeanLin
(Bean Lin)
3
1.用例与实际预期不符,./RASTool --E=0x1f --Sy=0x5fbf0000 注入CE故障,是无法触发0x01000017 UCE告警的,请审视用例与预期结果;
2.如果希望触发UCE可以尝试使用–E=0x20;
3.ce storm事件已在社区版本去除,确认使用的产品是否需要该事件提示,及时同步社区代码,社区代码链接:
AweiHe
(华鲲-Hewei)
5
CorrectableECC:表示内存已经发生过CE错误,BMC单次收到内存的CE错误IPMI消息即可置位;
CorrectableECCOverflow:表示具体内存已经发生CE错误超阈值事件,阈值和计数都在BIOS选项配置和统计;
CorrectableECCError:表示第3次CE超阈值后触发BIOS执行Bank替换事件,执行方也在BIOS;
Correct Error Threshold 3
Funnel Time 60
请教下为啥CorrectableECCError还是没有变化 @BeanLin
AweiHe
(华鲲-Hewei)
6
openUBMC:/->mdbctl lsprop MemoryRAS_1_01010117
bmc.kepler.Object.Properties
ClassName=“MemoryRAS”
ObjectIdentifier=[1,“1”,“”,“01010117”]
ObjectName=“MemoryRAS_1_01010117”
TraceSamplingRate=0
bmc.kepler.Systems.FDMDomain.MemoryRAS
ConfigErrorCode=“”
ConfigErrorType=0
CorrectableECC=1
CorrectableECCError=0
CorrectableECCOverflow=1
CorrectableECCOverfrequencyCount=1
CorrectableECCStorm=0
CorrectableECCStormBurstCount=0
CurrentPeriodUncorrectableECCErrorCount=0
DataPoisoned=1
DimmId=0
ErrorStormCount=10
HealthScore=60
LastIsolationStatus=0
LastIsolationType=255
LastPredictTime=1775799758
LifeTimeUncorrectableECCErrorCount=24
LogicalChannelId=2
LogicalCpuId=0
Name=“DIMM000”
ParityError=0
PoorContactFault=0
PredictiveFault=0
ScrubingUncorrectableECC=0
SystemId=1
UncorrectableECCError=0
BeanLin
(Bean Lin)
7
你其实已经回答了,920X系列BIOS不会在3次超阈值后再触发任何隔离措施,所以不会上报该事件了,对应CorrectableECCError属性也就不会再被置位
BeanLin
(Bean Lin)
9
1.这属于BIOS的改动,建议提交问题到BIOS领域,聚焦BMC领域问题;
2.从920X天池架构开始,各软件责任能力需要归一,BIOS只提供隔离原子能力让带内/带外调度,不再自主执行隔离
l00012320
(kunlun_luzhanghui)
10
请问一下,CorrectableECCError这个属性的描述:表示第3次CE超阈值后触发BIOS执行Bank替换事件,是从哪里看见的?
我这边做UCE也遇见了类似的问题,UncorrectableECCError属性配置了也发生了UCE,但是没有变化。想看下是不是类似的问题