GuJ
(Gu J)
1
问题描述
1.无法获取CPU的温度,电压,功率等健康信息
2.S920S08模组启动CPU有大量报错信息BT read byte failed,是BMC与鲲鹏模组S920S08的通讯异常导致的吗?
3.社区中的bmc_sdk.zip与鲲鹏BMC管理软件提供的二进制开发包iBMC300_5.12.0.7.tar.gz使用方法一样吗?硬件信息是鲲鹏S920S08模组+Hi1711BMC模组,应该使用那个SDK开发包bmc_sdk.zip还是iBMC300_5.12.0.7.tar.gz
4.按照社区新增硬件文档添加一个Lm75温度传感器温度上传正常,添加三个后温度显示均为0,三个温度传感器的地址分别是0x90,0x92,0x96可以正常识别到。vpd/vendor/Huawei/Server/Kunpeng/openUBMC/root.sr文件我上传到附件中
root.txt (12.2 KB)
环境信息,96
期望结果
1.可以获取到鲲鹏S920S08模组的健康信息。
2.BMC与鲲鹏S920S08的通讯正常。
3.三个温度传感器都可以采集到信息
1、无法获取 CPU 相关信息,确认是否为 ipmb 通道通信异常,可在 bmc 侧通过以下命令验证,若无法正常回复,则可能是 bmc 侧的 ipmb 服务异常或对端响应异常
-- 获取 CPU 温度
busctl --user call bmc.kepler.ipmi_core /bmc/kepler/IpmiCore bmc.kepler.IpmiCore Request a{ss}yyyyyay 0 1 0 0x30 0x00 0x98 5 0xdb 0x07 0x00 0x01 0x00
2、大量 BT read byte failed 报错,确认是否 BT 通道通信异常,可开启 trace 南向追踪后再重启 OS,观测追踪结果确认 bmc 侧是否收到系统侧发送的消息,以及是否正常回复
mdbctl traceipmi start file bt
追踪结果收集在 /tmp/ipmi.txt,若未生成该文件则表示 BMC 完全未收到消息
GuJ
(Gu J)
5
1.正常吗?
2.重启OS后/tmp/目录下无ipmit.txt,是与BMC的root.sr的文件配置有关吗?
1、busctl 命令执行成功,说明 ipmb 通信无问题,再确认下 CPU 相关信息无法获取吗?若还无法获取请明确下是哪些传感器信息异常
2、重启后多等待一些时间,等进入 bios 启动阶段后 bios 会向 bmc 发消息,若 3 分钟内都无 ipmi.txt 生成,则说明 bmc 未接收到 BT 通道的消息。问题可能发生在 ① bios 未正常发送消息;② 中间链路消息传输异常(主要是 cpld);③ bmc 侧 bt 驱动功能异常。若有问题请一键收集日志并提供至 wanghaozhou2@huawei.com
GuJ
(Gu J)
7
1.我修改了BMC的root.sr文件,配置了14100513_EXU_0.sr后,BMC可以获取的CPU的传感器,由于BMC显示CPU是下电状态,导致CPU的传感器值没有获取到。CPU的上下电状态时是配置那个sr文件,是fructrl组件中的文件吗?
2.修改BMC的root.sr文件,配置了14100513_EXU_0.sr后,CPU启动不会报错BT read byte failed,可以获取到日志ipmi.txt
ipmi.txt (1.4 MB)
14100513_EXU_0.sr 文件中是否包含一个 DFT 对象?
这样问的原因是 DFT 是 ipmi_core 组件的一个对象,并且在 ipmi_core 启动阶段会依赖几个必要对象都分发注册后才可以启动核心处理,比如 ipmb 通道的初始化;而 DFT 则是其中一个必要对象