GPU显卡适配芯片温度和功耗获取失败

背景

适配一张gpu显卡,显卡插在rise卡上,华为的rise,需要获取温度和功耗,根据芯片厂商给的规格书,编写了sr文件

厂商的规格书如下 芯片地址是 0x4f(转换为十进制为79)

获取数据的流程

温度及功耗偏移如下 芯片温度偏移是0x98(十进制是156) 功耗偏移是0x90(十进制是144)

sr文件配置如下:
拓扑图如下

chip地址配置如下

温度Scanner配置如下

功耗的Scanner如下

Connector如下

参数配置

  1. 已经装操作系统,还未装对应的显卡驱动
  2. 处理器型号 Kunpeng 920 7282C
  3. rise卡位华为rise卡 型号为 Description=Manufactured Board,S920X20,BC83PRUO,PCIe Riser IO1/IO2 1CEM x16(Slot1)+1x8(Slot2)+1x8(Slot3),15;IssueNumber=00;CLEICode=;BOM=;Model=BC83PRUO

问题现象

  1. web端温度和功耗不显示

问题初步排查

  1. 查看Scanner的value和status报错

  2. 9545读数据失败

1 个赞

检查下i2c地址和选路信息

1 个赞

地址看着是7位的,应该左移一位,配成8位地址,然后要保证i2c bus是不是对的。
这些都没问题的话,确认一下GPU的固件版本,我看到你上面截图v3.3.8后地址是0x4f。

以前我在其他平台上适配GPU的时候,读不到数据大概率都是固件的问题,问厂商要一下相关的工具和固件,在OS下刷一下就行了。

2 个赞

固件版本跟厂商确认过,固件版本是4.x了,地址是0x4f 地址左移1位也报错 目前不确定这个chip是配置多少是正确的

请问有后续吗,我这边适配gpu时候也遇到的相同的问题。

1 个赞

请问现在这个问题你解决了吗?我看你web端显示的只有温度数据,没有功耗数据,我现在也是遇到这个相同的问题