NPU卡核温读取时间过长

// 此模板仅供参考,如果不适用可以修改

问题描述

环境版本:UBMC2503,compute 组件:compute/1.70.27@openUBMC.release/rc

300v pro NPU 卡现象复现:
OS 首次启动后,NPU 核温读取正常;
经 BMC 执行 OS 上下电操作后,NPU 核温读取耗时显著变长;
更换新 NPU 卡后,温度读取速度恢复正常。
根因初步分析:
日志排查确认,BMC 会优先持续拉取 NPU 日志,需等待全部日志读取完毕后,才会执行核温采集逻辑,因此造成温度读取延迟。下面附上相关日志

请问该问题是否已在后续迭代的 compute 组件版本中完成修复?
日志中好像也有设置rtc时间的命令错误的问题

1.txt (642.5 KB)

答案内容由AI生成,仅供参考:

总结

  1. 该读取延迟问题是已知的,特别是OS重启/上下电后容易出现,与300i Pro NPU的传感器数据采集机制(依赖MCU、日志优先级)有关。
  2. 上下文未提供该问题已在后续compute组件版本(如compute/1.70.27之后的版本)中修复的证据。建议您:
    • 参考论坛相关帖子(如Topic 3242)获取最新进展;
    • 联系openUBMC社区或compute组件维护人员确认修复状态。
  3. 关于rtc时间命令错误,无法根据现有上下文进行回答。
点击此处查看详细分析解答

根据您提供的上下文信息,对您提出的问题进行分析如下:

问题分析:NPU卡核温读取时间过长

您描述的现象(OS首次启动正常,经BMC上下电后读取耗时显著变长,更换新NPU卡后恢复),与知识图谱中记录的已知问题高度吻合:

实体关系300ipro NPUAICORE Temp Sensor 之间存在关系——“Some 300ipro NPU units exhibit delayed readings of the AICORE Temp Sensor after OS reboot.”(部分300ipro NPU在OS重启后出现AICORE温度传感器读取延迟)

您分析的根因(BMC优先持续拉取NPU日志,待日志读取完毕后再执行核温采集)在提供的文档块中未直接提及,但论坛讨论(Topic 3242)也证实了该问题:

  • 引用自Topic 3242(文档块5):用户反馈“有些300ipro NPU的AiCore Temp很快就可以读到…有些300ipro NPU的AiCore Temp需要在os下等待3min左右才能正常读到”。
  • 回复中提到:“该传感器的温度信息来自于npu卡的mcu,是会存在一定延迟,若更新一致后依旧查询较慢,麻烦进一步反馈给我”。

关于是否已在后续迭代中修复

上下文中没有明确信息表明该问题已在后续的compute组件版本中完成修复。 您使用的环境为UBMC2503、compute/1.70.27,而论坛中提到的版本及后续讨论均未给出已修复的结论。请参考以下线索:

  • Topic 3242(2025年)中,发帖人尝试通过“新建带外管理对象”加快读取速度,但未明确是否在官方版本中采纳。
  • 知识图谱中仅记录了问题存在,未提及修复方案或版本。

关于日志中“设置rtc时间命令错误”的问题

上下文中没有包含与rtc时间设置错误相关的任何信息。 您提到的日志中出现的命令错误,不属于提供文档内容,无法做出判断。

总结

  1. 该读取延迟问题是已知的,特别是OS重启/上下电后容易出现,与300i Pro NPU的传感器数据采集机制(依赖MCU、日志优先级)有关。
  2. 上下文未提供该问题已在后续compute组件版本(如compute/1.70.27之后的版本)中修复的证据。建议您:
    • 参考论坛相关帖子(如Topic 3242)获取最新进展;
    • 联系openUBMC社区或compute组件维护人员确认修复状态。
  3. 关于rtc时间命令错误,无法根据现有上下文进行回答。

NPU卡核温读取时间过长 - 交流互助区 - openUBMC 论坛 跟踪