AC循环概率出现CPU、内存温度拿不到的情况

问题现象

执行AC循环时,概率拿不到CPU、内存温度信息:

问题背景

BMC版本为基于2506的伙伴版本。

硬件均为华为高性能机型硬件。

问题分析

详细告警信息为:


“Minor”,“Memory”,"Failed to obtain data of the memory (CPU1) temperature.

查询到也没有CPU相关的电压信息:

怀疑和ipmb通道有关,使用调试命令跟踪ipmb通道信息:

收集一段时间,在/tmp/目录没有发现ipmi.txt文件。

app.log 日志中持续出现异常打印:

诉求

1、当前问题如何定界是BMC还是BIOS问题(涉及到ipmi_core闭源组件信息)

2、当前问题如果是BMC问题,如何解决?

如需一键日志,请留下大侠邮箱地址

由于大量社区举报,此话题被临时关闭至少 4 小时。

此话题已在 4 小时后被自动打开。

@yizhonghui

  1. 当前问题从 local 日志中可以分析出 ipmb 消息通道对应的服务异常了,无法发送和接收 ipmb 消息,所以无法获取到 CPU 和 内存的温度。
  2. 请 将日志发送到邮箱 pengqiang23@huawei.com,这边进一步进行定位和答复

@L_Ling @zhangbaocun 请关注此问题

已解决,参考:优化丝印获取时间-bios-AtomGit | GitCode