NPU卡适配指导

概述

NPU卡在文中专指基于昇腾AI处理器生产的系列AI加速卡。该部分功能暂未开放,如有适配新卡或问题定位诉求,可联系hardware-sig成员

接口定义

以下是NPUCard类主要的interface包含关系


"path": "/bmc/kepler/Systems/${SystemId}/PCIeDevices/PCIeCards/NPUCards/${Id}",

"interfaces": [

"bmc.kepler.Systems.NPUCard",

...

]

bmc.kepler.Systems.NPUCard

属性 说明 建议实现方式
PowerWatts 功耗 通过带外管理协议获取
PowerState 卡的电源状态 暂未使用
Core0TemperatureCelsius 芯片1温度 通过带外管理协议获取
Core1TemperatureCelsius 芯片2温度 通过带外管理协议获取,如果只有1个NPU芯片,则不需要实现,相应地也不需要配置传感器
OutletTemperatureCelsius 出风口温度 通过带外管理协议获取
InletTemperatureCelsius 进风口温度 通过带外管理协议获取
FaultState 故障状态 通过带外管理协议获取
FaultCode 故障码 通过带外管理协议获取
ChipHealthStatus 精细化告警级别 通过带外管理协议获取,针对部分特定故障码
ChipFaultDescription 故障描述 通过带外管理协议获取,针对部分特定故障码
McuFirmwareVersion MCU版本 通过带外管理协议获取
SlotNumber 槽位号 在CSR配置成${Slot}
SerialNumber 序列号 通过带外管理协议获取
BoardID 单板Id 根据需求在CSR配置
PcbVersion PCB版本 通过带外管理协议获取
Name 名称 根据需求在CSR配置
FirmwareVersion 系统固件版本 通过带外管理协议获取
MemoryCapacityMiB 内存容量 通过带外管理协议获取

私有属性

属性 说明 建议实现方式
RefChip 关联MCU对象,带外管理协议交互 根据需求在CSR配置
LockChip 升级MCU时锁定的芯片对象 根据需求在CSR配置,一般与MCU对象一致
RefEeprom E2P由MCU实现,此关联对象用于复写电子标签相关方法 参考已有NPU卡CSR配置
CardPartNumber 部件号 根据需求在CSR配置
DeviceName 设备名称 根据需求在CSR配置
CardDescription 描述 根据需求在CSR配置
RefFrudata 关联FruData对象 根据需求在CSR配置,更新电子标签时会调用该对象的方法

协议实现

  • 带外管理协议使用华为自研SMBus协议。参考Atlas 中心推理卡 带外管理接口说明 12

  • 与GPU卡一致,同样采用了通信协议与命令配置分离的实现方法。后续也会基于新的部件驱动规范来进行适配

2 个赞