wangdong
(Wangdong)
1
// 此模板仅供参考,如果不适用可以修改
问题描述
300i a2卡获取温度/功耗信息在哪个模块里
环境信息
-
操作系统:[如 Ubuntu 24.04]
-
软件版本:[如 OpenUBMC2509]
-
硬件配置:[如 CPU、内存等]
重现步骤
-
[第一步]
-
[第二步]
-
[第三步]
期望结果
知道300i a2卡获取温度/功耗信息在哪个模块里
实际结果
不知道300i a2卡获取温度/功耗信息在哪个模块里,无法定位相关问题
尝试过的解决方案
[列出您已经尝试过的解决方案及结果]
答案内容由AI生成,仅供参考:
300i A2卡获取温度/功耗信息的模块分析
根据提供的上下文信息,关于Atlas 300I A2卡获取温度和功耗信息的相关模块与实现路径如下:
1. 信息采集模块
主管理模块:compute 服务
结论:compute 是直接负责获取 Atlas 300I A2 卡温度与功耗的核心模块。
2. 协议与通信方式
带外通信协议:std_smbus
- 协议类型:
std_smbus(标准SMBus协议)
- 用途:用于从A2卡读取以下关键属性:
ChipTemperature:芯片温度
AiCoreTemp:AI核心温度
HBMTemp:高带宽内存温度
PowerWatts:整卡功耗(单位:瓦特)
资源协作接口路径
/bmc/kepler/Systems/${SystemId}/PCIeDevices/PCIeCards/NPUCards/${Id}
具体监控属性
| 属性 |
获取协议 |
获取周期 |
接口 |
PowerWatts |
std_smbus |
2秒 |
bmc.kepler.Systems.NPUCard |
ChipTemperature |
std_smbus |
2秒 |
bmc.kepler.Systems.Processor.NPU |
AiCoreTemp |
std_smbus |
2秒 |
bmc.kepler.Systems.Processor.NPU |
HBMTemp |
std_smbus |
2秒 |
bmc.kepler.Systems.Processor.NPU |
数据来源:所有温度与功耗数据均通过 带外(out-of-band)方式使用 std_smbus 协议 从A2卡的MCU获取。
3. 配置依赖与版本要求
软件版本要求:OpenUBMC 25.09 及以上
- 问题现象:
用户反映在 openUBMC 25.06 基线无法读取A2卡温度/功耗。
- 解决方案:
升级到 25.09 基线,该版本闭源组件 compute 已适配Atlas 300I A2卡。
建议版本:使用 OpenUBMC 25.09 或更高版本以确保兼容性。
4. 故障排查参考
若仍无法读取温度/功耗,可能原因包括:
| 可能原因 |
检查项 |
compute 模块未正确初始化 |
查看日志中是否有 find_object nil 错误 |
| SMBus 通信异常 |
检查A2卡是否正常上电、SMBus总线是否连通 |
| 固件版本不匹配 |
检查A2卡MCU固件版本是否支持当前BMC协议 |
| 配置文件缺失或错误 |
确认CSR中是否正确定义了NPU卡设备路径 |
调试建议:
- 使用命令查看日志:
journalctl -u compute 或检查 /tmp/compute.log
- 确保BMC已识别到A2卡(检查
/dev/i2c-* 或 lspci | grep Huawei)
总结
| 项目 |
内容 |
| 核心模块 |
compute 服务 |
| 协议 |
std_smbus |
| 数据接口 |
bmc.kepler.Systems.NPUCard, bmc.kepler.Systems.Processor.NPU |
| 关键属性 |
PowerWatts, ChipTemperature, AiCoreTemp, HBMTemp |
| 最低支持版本 |
OpenUBMC 25.09 |
最终答案:
Atlas 300I A2卡的温度与功耗信息由 compute 模块通过 std_smbus 协议 获取,并通过 资源协作接口 上报至BMC系统。确保使用 OpenUBMC 25.09 或更高版本以获得完整支持。
1 个赞