【问题求助】多张 NPU 卡内存容量显示异常,重启后部分信息缺失
一、环境信息
软件版本:
- 代码版本:
25.03
- bingo版本:
0.5.317
- NPU卡MCU固件版本:
24.5.9
- NPU卡系统固件版本:
7.7.0.1.231
硬件配置:
- 主板型号:
S920X20
- RISER卡型号:
BC83PRUR
- NPU卡型号:
300I Duo
二、问题描述
- 单独插入一张 NPU 卡时,内存容量信息正常显示;
- 插入多张 NPU 卡时,仅有一张卡的内存容量信息能显示;
- 若BMC重启(不AC下电),可正常显示2张卡的内存容量信息,但剩余卡的内存容量仍显示为0;
- 若AC下电重启,则又只剩1张卡的内存容量能显示。
以下是Web截图,可见部分 NPU 卡的内存容量为 --:
三、排查情况
- 代码逻辑是通过扫描资源树获取内存容量信息;
- 当内存容量显示为
0 时,资源树本身就未获取到正确值;
- 卸载
iBMA 后,NPU卡信息依然能显示,说明这部分信息与 iBMA 无强依赖;
- 当前不清楚:内存容量信息是如何从 NPU 卡传递到 BMC 的?
四、疑问与求助
该问题在多次测试中表现稳定、必现,目前存在以下几个关键疑问:
- NPU 卡内存容量是通过什么方式上传到 BMC 的?
- 为什么在 BMC 重启后信息部分恢复,但 AC 下电重启后又失效?
- 如何进一步定位或规避此问题?该问题应该怎么解决?
老师您好,当前论坛的上传压缩包的功能暂时关闭了,麻烦您提供一下邮箱地址,我发您
老师您好,当前我们是300I DUO的卡,插多张相同型号的卡的时候只有两张卡能正常显示内存容量,其余的卡都不显示
YMQMKK
(wuzhou-xiaokaili)
6
目前我们也是遇到了这种情况,在接入多张300idou后,有时候能够显示一张,有时候全部不能显示。请问您该问题解决了吗?有什么解决和排查思路吗?
YMQMKK
(wuzhou-xiaokaili)
7
@zybwh @caiyesheng_b48v3 大佬们可以帮忙看看这个问题吗?经过实验,在接入两张300idou卡的情况下,我们在AC之后只有一张卡的内存容量可以显示,BMC重启之后可以恢复正常,即两张卡的内存容量都可以显示。可以提供一下排查思路吗?感谢
之前有类似的问题其他卡的内存容量读不上来是因为taskName没有保持每张卡唯一。
目前还没解决,使用了社区最新的vpd组件后仍然只有两张卡显示内存容量
YMQMKK
(wuzhou-xiaokaili)
13
发现另外一个问题 我们的300idou的内存容量显示的是87974,正常来说应该是87973
已定位,原因是多张卡查询内存容量的轮询任务是同一个名称,导致查询的内存容量只有一个
您好,这部分和闭源组件有关,这个问题有什么解决方案嘛
您好,那这个问题应该怎么解决呢,是您这边修改完之后,新版本的组件再发嘛
老师,您好,这个问题已经解决了吗,这个闭源组件是什么时候可以传递呢,因为我看白牌的BMC版本已经解决这个问题,可以正常显示内存容量了