NPU卡核温读取时间过长

// 此模板仅供参考,如果不适用可以修改

问题描述

环境版本:UBMC2503,compute 组件:compute/1.70.27@openUBMC.release/rc

300v pro NPU 卡现象复现:
OS 首次启动后,NPU 核温读取正常;
经 BMC 执行 OS 上下电操作后,NPU 核温读取耗时显著变长;
更换新 NPU 卡后,温度读取速度恢复正常。
根因初步分析:
日志排查确认,BMC 会优先持续拉取 NPU 日志,需等待全部日志读取完毕后,才会执行核温采集逻辑,因此造成温度读取延迟。下面附上相关日志

请问该问题是否已在后续迭代的 compute 组件版本中完成修复?

1.txt (642.5 KB)

你好,请提供更加详细的数据
1、日志收集开始后,温度获取时间变为多久一次了,以及你是如何确定的温度获取间隔的
2、你说的更换新卡之后不会出现这一情况是指不再复现该现象,还是插上新卡后温度获取间隔正常,并未重复进行之前的操作

1.获取的时间不固定,根据日志大小,什么时候把日志读完,才会获取到温度数据。客户与昇腾卡的相关人员通过日志测试出来的,把日志读完后这个数据就获取到了。

2.新卡操作一样的,只是日志少所以读的快。

这个读日志的操作是因为有一个设置rtc时间命令的错误吗

能否再确认一下,是这段时间卡侧查询不到温度还是bmc侧停止查询了,确认方法为,在触发日志收集时,手动发送npu卡查询温度命令,尝试获取温度

卡侧温度是正常的,可以正常获取到核温

我说的是通过带外管理接口查询,这是官方文档下载地址

Atlas卡 带外管理接口说明
https://support.huawei.com/enterprise/zh/ascend-computing/atlas-300i-duo-pid-252823107

上述命令不就是带外查询吗,就是参考手册中的命令啊

好的,一开始看错了