// 此模板仅供参考,如果不适用可以修改
问题描述
环境版本:UBMC2503,compute 组件:compute/1.70.27@openUBMC.release/rc
300v pro NPU 卡现象复现:
OS 首次启动后,NPU 核温读取正常;
经 BMC 执行 OS 上下电操作后,NPU 核温读取耗时显著变长;
更换新 NPU 卡后,温度读取速度恢复正常。
根因初步分析:
日志排查确认,BMC 会优先持续拉取 NPU 日志,需等待全部日志读取完毕后,才会执行核温采集逻辑,因此造成温度读取延迟。下面附上相关日志
请问该问题是否已在后续迭代的 compute 组件版本中完成修复?
1.txt (642.5 KB)
Longbow
(ZhangZhiyang)
2
你好,请提供更加详细的数据
1、日志收集开始后,温度获取时间变为多久一次了,以及你是如何确定的温度获取间隔的
2、你说的更换新卡之后不会出现这一情况是指不再复现该现象,还是插上新卡后温度获取间隔正常,并未重复进行之前的操作
1.获取的时间不固定,根据日志大小,什么时候把日志读完,才会获取到温度数据。客户与昇腾卡的相关人员通过日志测试出来的,把日志读完后这个数据就获取到了。
2.新卡操作一样的,只是日志少所以读的快。
这个读日志的操作是因为有一个设置rtc时间命令的错误吗
Longbow
(ZhangZhiyang)
4
能否再确认一下,是这段时间卡侧查询不到温度还是bmc侧停止查询了,确认方法为,在触发日志收集时,手动发送npu卡查询温度命令,尝试获取温度
Longbow
(ZhangZhiyang)
6