运行DC+cpu_stress稳定性357次后出现刷MCU Riser通信丢失

问题描述

在运行DC+cpu_stress稳定性357次后停止以后BMC刷写"The MCU communication error occurs on PCIe riser card1",目前只出现一次,正在压测观察复现规律

环境信息

  • 软件版本:基础BMC版本 5.5.12.11;定制版本1.42.09

重现步骤

  1. 目前只出现一次,正在压测进行复现规律观察

期望结果

希望不出现这类告警

实际结果

出现了告警

分析结论

  1. 该告警是通过SMC命令字查询状态,连续三次失败会出现告警;
  2. 通过Riser对应的position去查看hwproxy/mdb_interface.log,发现有的Scanner有报错,

  1. 从这个打印,看起来想下层有异常,麻烦帮忙分析一下这个是什么异常,这种异常的根因是什么,是否可能会出现导致mcu通信失败