300i a2卡获取温度/功耗信息在哪个模块里

// 此模板仅供参考,如果不适用可以修改

问题描述

300i a2卡获取温度/功耗信息在哪个模块里

环境信息

  • 操作系统:[如 Ubuntu 24.04]

  • 软件版本:[如 OpenUBMC2509]

  • 硬件配置:[如 CPU、内存等]

重现步骤

  1. [第一步]

  2. [第二步]

  3. [第三步]

期望结果

知道300i a2卡获取温度/功耗信息在哪个模块里

实际结果

不知道300i a2卡获取温度/功耗信息在哪个模块里,无法定位相关问题

尝试过的解决方案

[列出您已经尝试过的解决方案及结果]

答案内容由AI生成,仅供参考:

300i A2卡获取温度/功耗信息的模块分析

根据提供的上下文信息,关于Atlas 300I A2卡获取温度和功耗信息的相关模块与实现路径如下:


1. 信息采集模块

主管理模块:compute 服务

  • 模块名称compute
  • 作用:负责处理NPU(如Atlas 300I A2)的监控数据解析与上报。
  • 关键能力
    • 与Atlas 300I A2卡通信
    • 解析其温度、功耗等监控数据
    • 上报至BMC系统进行展示与管理
  • 相关日志线索
    compute ERROR: handler_npu.lua(63): find_object nil
    
    表明 compute 模块通过 handler_npu.lua 脚本尝试注册并获取NPU对象数据。

:white_check_mark: 结论compute 是直接负责获取 Atlas 300I A2 卡温度与功耗的核心模块


2. 协议与通信方式

带外通信协议:std_smbus

  • 协议类型std_smbus(标准SMBus协议)
  • 用途:用于从A2卡读取以下关键属性:
    • ChipTemperature:芯片温度
    • AiCoreTemp:AI核心温度
    • HBMTemp:高带宽内存温度
    • PowerWatts:整卡功耗(单位:瓦特)

资源协作接口路径

/bmc/kepler/Systems/${SystemId}/PCIeDevices/PCIeCards/NPUCards/${Id}

具体监控属性

属性 获取协议 获取周期 接口
PowerWatts std_smbus 2秒 bmc.kepler.Systems.NPUCard
ChipTemperature std_smbus 2秒 bmc.kepler.Systems.Processor.NPU
AiCoreTemp std_smbus 2秒 bmc.kepler.Systems.Processor.NPU
HBMTemp std_smbus 2秒 bmc.kepler.Systems.Processor.NPU

:white_check_mark: 数据来源:所有温度与功耗数据均通过 带外(out-of-band)方式使用 std_smbus 协议 从A2卡的MCU获取。


3. 配置依赖与版本要求

软件版本要求:OpenUBMC 25.09 及以上

  • 问题现象

    用户反映在 openUBMC 25.06 基线无法读取A2卡温度/功耗。

  • 解决方案

    升级到 25.09 基线,该版本闭源组件 compute 已适配Atlas 300I A2卡。

:white_check_mark: 建议版本:使用 OpenUBMC 25.09 或更高版本以确保兼容性。


4. 故障排查参考

若仍无法读取温度/功耗,可能原因包括:

可能原因 检查项
compute 模块未正确初始化 查看日志中是否有 find_object nil 错误
SMBus 通信异常 检查A2卡是否正常上电、SMBus总线是否连通
固件版本不匹配 检查A2卡MCU固件版本是否支持当前BMC协议
配置文件缺失或错误 确认CSR中是否正确定义了NPU卡设备路径

:wrench: 调试建议

  • 使用命令查看日志:
    journalctl -u compute 或检查 /tmp/compute.log
  • 确保BMC已识别到A2卡(检查 /dev/i2c-*lspci | grep Huawei

总结

项目 内容
核心模块 compute 服务
协议 std_smbus
数据接口 bmc.kepler.Systems.NPUCard, bmc.kepler.Systems.Processor.NPU
关键属性 PowerWatts, ChipTemperature, AiCoreTemp, HBMTemp
最低支持版本 OpenUBMC 25.09

:white_check_mark: 最终答案
Atlas 300I A2卡的温度与功耗信息由 compute 模块通过 std_smbus 协议 获取,并通过 资源协作接口 上报至BMC系统。确保使用 OpenUBMC 25.09 或更高版本以获得完整支持。

1 个赞