安装iBMA后ubmc的首页没有上传cpu和内存信息

在OS内,执行 ibmacli debug -m http -e true 命令打开iBMA服务http模块debug级别日志。

随后执行:cd $(rpm -ql iBMA2.0 | head -n1)/log 命令,进入iBMA 日志目录;

用tail命令 :tail -f http_server.log | grep “TotalCPUUsage“ 查看http_server.log;

如果其中 TotalCPUUsage 和 MemUsage 等属性不为空,则iBMA已上报数据到BMC,需要在BMC侧定位问题。


如果开启debug日志后,tail命令长时间没有输出内容到终端,则可能是BMA和BMC之间通信存在问题。

根据之前提供的common.txt内容:

2025-10-23 18:23:38,161 ERROR Register.py[checkSmsIdResp 611] SMS ID response is invalid.

上述日志表示BMA无法从BMC获取SMS ID,会导致BMA和BMC无法正常通信;

2025-10-24后的 2021-01-01 08:06:58,113 ERROR Register.py[checkTokenResp 555] Token response is invalid. 日志表面,iBMA获取token失败,同样会导致BMA和BMC无法通信

需要排查BMC侧对应的ipmi命令功能是否正常。


common.txt中,2025-10-24 14:10:57 时间点,BMA向BMC注册成功,此次BMA和BMC的通信应该是正常的。

image
tail命令确实长时间无输出,common.log也一直在报错


重启ibma服务依然报错


但是网页端能看到ibma信息

请问如何排查bmc侧的ipmi命令,bmc的命令行好像没有ipmitool工具

通过redfish可以看到并不是所有信息都不能获取,比如系统版本和内核版本是可以获取到的,但是cpu和内存占用率这里就是空的

首页无法获取到有用信息

这个cpu和内存的信息上报走的是bios,bios上报了就有,没上报就没有,你让bios的先查下。

BMC后台支持用mdbctl traceipmi {start|stop} file {bt|ipmb|edma} [netfn] [cmd] 命令实现ipmi命令南向追踪。当前问题可以用
mdbctl traceipmi start file edma 0x30 0x94 命令追踪定位,命令结果会输出到/tmp/ipmi.txt文件,命令解释:
start/stop表示打开/关闭追踪功能
bt/ipmb/edma为ipmi命令通道,BMA和BMC交互的ipmi命令基本都是edma通道
0x30和0x94表示过滤的netfn和cmd,都为0xff则为不过滤打印全部数据,0x30 0x94是当前问题ipmi命令的netfn和cmd


另外,common.txt日志中,2025-10-24 14:10:57 时间点,BMA向BMC注册成功,BMA和BMC的通信正常,可以回溯当时的BMC版本。

输出的文件如下:
ipmi.txt (16.2 KB)

请问这个信息有什么问题吗

从这个ipmi trace信息来看,是iBMA发ipmi命令向BMC请求token失败,这个会影响iBMA请求BMC的Redfish接口,但这个与你的问题(BMC web页面不显示内存和CPU占用率)无关

按以下步骤排查下是否是BMC没有从iBMA获取到这两个信息

1、在BMC后台执行 busctl --user introspect bmc.kepler.host_agent /bmc/kepler/Systems/1/Sms/1/ComputerSystem/Systems/1/Summary

2、查看命令回显的 MemUsageTotalCPUUsage 的值

您好,执行命令后有回显数据

但是redfish读到的还是空的

请问下一步该如何排查?

在BMC后台输入

mdbctl
attach compute
dloglevel debug 1
bye
systemctl restart ras

静置环境五分钟,在BMC后台输入

mdbctl
attach compute
dloglevel notice

一键收集日志,查看文件LogDump\app.log是否打印以下的日志

update cpu usage from bma fail

以及其他compute组件的error等级的日志打印

我这边卸载iBMA然后./install.sh -s --enable-iBMA_https=true重新安装就不会报这个错误了

您好,我按您说的方法收集了日志之后,没有在log中发现类似报错

compute组件其他error报错如下图

看起来load smbios失败了,这个会有影响吗

您好,这边继续定位需要提供一下一键收集。huangding12@huawei.com

这个不影响,麻烦查看一下CPUMetrics的相关属性,

mdbctl lsobj CPUMetrics
mdbctl lsprop CPUMetrics_{Id}

您好,查了一下结果如下:
image
两个都显示没有

您好,我发了邮件之后被退回了

麻烦输入以下命令,观察输出

mdbctl lsclass

您好,这里是结果

你使用的csr是下载的还是自己编写的?这里面没有定义CPUMetrics_1,导致没有这个资源协作接口去承载相关属性。写法可以参考vpd/vendor/Huawei/TianChi/BCU/14100513_00000001020302024339.sr中的第2632行

好的,我试一下


在csr中新添了这4个属性,还是不行,网页上还是没有cpu和内存信息

image
执行上面两个命令是这样的结果