300I ATLAS DUO卡适配后,多张卡插入后只有一张显示内存容量

【问题求助】多张 NPU 卡内存容量显示异常,重启后部分信息缺失

一、环境信息

软件版本:

  • 代码版本:25.03
  • bingo版本:0.5.317
  • NPU卡MCU固件版本:24.5.9
  • NPU卡系统固件版本:7.7.0.1.231

硬件配置:

  • 主板型号:S920X20
  • RISER卡型号:BC83PRUR
  • NPU卡型号:300I Duo

二、问题描述

  • 单独插入一张 NPU 卡时,内存容量信息正常显示;
  • 插入多张 NPU 卡时,仅有一张卡的内存容量信息能显示
  • BMC重启(不AC下电),可正常显示2张卡的内存容量信息,但剩余卡的内存容量仍显示为0
  • AC下电重启,则又只剩1张卡的内存容量能显示

以下是Web截图,可见部分 NPU 卡的内存容量为 --


资源树结构如下图所示:

三、排查情况

  • 代码逻辑是通过扫描资源树获取内存容量信息;
  • 当内存容量显示为 0 时,资源树本身就未获取到正确值;
  • 卸载 iBMA 后,NPU卡信息依然能显示,说明这部分信息与 iBMA 无强依赖;
  • 当前不清楚:内存容量信息是如何从 NPU 卡传递到 BMC 的?

四、疑问与求助

该问题在多次测试中表现稳定、必现,目前存在以下几个关键疑问:

  1. NPU 卡内存容量是通过什么方式上传到 BMC 的?
  2. 为什么在 BMC 重启后信息部分恢复,但 AC 下电重启后又失效?
  3. 如何进一步定位或规避此问题?该问题应该怎么解决?

请提供下一键收集

老师您好,当前论坛的上传压缩包的功能暂时关闭了,麻烦您提供一下邮箱地址,我发您

Pro卡不支持获取内存容量

老师您好,当前我们是300I DUO的卡,插多张相同型号的卡的时候只有两张卡能正常显示内存容量,其余的卡都不显示

目前我们也是遇到了这种情况,在接入多张300idou后,有时候能够显示一张,有时候全部不能显示。请问您该问题解决了吗?有什么解决和排查思路吗?

@zybwh @caiyesheng_b48v3 大佬们可以帮忙看看这个问题吗?经过实验,在接入两张300idou卡的情况下,我们在AC之后只有一张卡的内存容量可以显示,BMC重启之后可以恢复正常,即两张卡的内存容量都可以显示。可以提供一下排查思路吗?感谢

wangzhuwei3@h-partners.com 日志麻烦转发我一份。

之前有类似的问题其他卡的内存容量读不上来是因为taskName没有保持每张卡唯一。

目前还没解决,使用了社区最新的vpd组件后仍然只有两张卡显示内存容量

已发送,请查收

请问这部分代码是在哪个组件下的?

发现另外一个问题 我们的300idou的内存容量显示的是87974,正常来说应该是87973

已定位,原因是多张卡查询内存容量的轮询任务是同一个名称,导致查询的内存容量只有一个

您好,这部分和闭源组件有关,这个问题有什么解决方案嘛

是的

您好,那这个问题应该怎么解决呢,是您这边修改完之后,新版本的组件再发嘛

是的 修改闭源组件

老师,您好,这个问题已经解决了吗,这个闭源组件是什么时候可以传递呢,因为我看白牌的BMC版本已经解决这个问题,可以正常显示内存容量了


image

最新版本修复了,可重新验证下