RP1000P2SFP-A03网卡获取温度失败

25 1230版本BMC

RP1000P2SFP-A03网卡获取温度失败

答案内容由AI生成,仅供参考:

总结

项目 内容
问题类型 带外通信故障
根本原因 MCTP通信失败导致NCSI命令无法执行
涉及协议 NCSI over MCTP over SMbus
影响组件 RP1000P2SFP-A03网卡温度、MAC、序列号等信息无法获取
系统表现 触发TempFail事件,健康状态降级,风扇可能异常调速
解决方向 检查MCTP链路、升级/修复驱动、增加通信容错
点击此处查看详细分析解答

RP1000P2SFP-A03网卡温度获取失败问题分析

事件概述

在使用25.1230版本BMC的系统中,RP1000P2SFP-A03型号网卡出现温度数据读取失败的问题。系统产生告警,事件码为 0x8000005,级别为轻微,设备序列号为 020182032413105346

告警显示:“Failed to obtain data of the PCIe Card 2 (RP1000P2SFP-A03) temperature”,即无法获取PCIe卡2(RP1000P2SFP-A03)的温度数据


问题根源分析

根据日志和系统上下文分析,问题由MCTP(Management Component Transport Protocol)通信链路异常引发,导致无法通过带外协议获取网卡信息。

关键日志证据

  • 核心错误日志

    2026-03-17 14:12:47.969987 daemon ERROR: ncsi_over_mctp_wx.cpp(72): Error: failed to send NCSI get temperature command
    2026-03-17 14:12:47.970565 daemon ERROR: ncsi_over_mctp_wx.cpp(131): Error: failed to send NCSI get serial number command
    2026-03-17 14:12:47.971056 daemon ERROR: ncsi_over_mctp_wx.cpp(105): Error: failed to send NCSI get MAC address command
    

    多个 ncsi_over_mctp_wx.cpp 模块报错表明:系统尝试通过 NCSI over MCTP over SMbus 协议获取网卡温度、序列号、MAC地址等信息均失败。

  • 事件触发标志

    2026-03-17 14:12:27.999134 event NOTICE: hardware_event.lua(578): Event TempFail_01010502[{"source":{"properties":[{"Property":"TemperatureStatus","Path":"/bmc/dev/System/1/PCIE NicCard/PCIE NicCard_1_01010502","Service":"PCIE NicCard"}],"Value":1,"Tech":"Temperature"}}, "message":"Temperature Status changed to 1"]
    

    TemperatureStatus 被设置为 1(表示温度故障),触发了 TempFail_01010502 事件。


故障成因

1. MCTP Endpoint创建失败

系统依赖MCTP协议实现带外管理。当MCTP链路不稳定或Endpoint未成功创建时,所有基于MCTP的命令(温度、MAC地址、LLDP状态等)均无法发送。

此问题与知识库中LPe32002-AP网卡的 create_endpoint failed 错误一致(参考文档 43484085),表明该问题具有共性。

2. 协议栈通信链路中断

RP1000P2SFP-A03 属于支持 NCSI over MCTP over SMbus 的网卡类型。若SMbus物理链路或MCTP服务异常,即使网卡物理在位,BMC也无法与之通信。

日志中持续的“failed to send NCSI get…”命令错误表明通信链路处于持久性故障状态。


影响范围

  • 温度监控失效PCIe NIC 温度传感器无法读取,系统无法进行热管理和调速。
  • 关键信息缺失
    • MAC地址无法更新
    • 序列号无法获取
    • LLDP状态不可知
  • 误触发告警与调速异常
    • 系统健康状态由“Normal”降为“Minor”
    • 可能触发异常调速策略,风扇以固定高转速运行(如 80%),影响噪音与能耗
  • 系统可观测性下降:BMC无法获取该网卡的运行状态,不利于远程管理和故障排查

修复建议

1. 确认BMC及驱动版本兼容性

参考openUBMC 25.09版本发布说明RP1000P2SFP-A03 已在支持列表中:

:white_check_mark: 新增标卡和OCP网卡,包括…RP1000P2SFP-A03 等支持

建议确认当前 25.1230版本 是否包含针对该网卡MCTP通信的修复补丁。


2. 排查MCTP通信链路

  • 检查SMbus通信是否正常,是否存在总线冲突或超时。
  • 查看MCTP日志(mctpd)是否有 create_endpoint failedmsg_type=0 异常。
  • 验证网卡设备是否正确注册到MCTP路由表。

3. 防抖与容错机制优化

参考“CSR硬件监控防抖机制”文档,建议对网卡温度获取增加:

  • 重试机制:NCSI命令失败后自动重试3次
  • 防抖时间窗:在OS启动/重置期间暂停告警上报,避免误报
  • 异常处理策略:温度读取失败时,采用备份温度源或设定安全默认值

4. 回退或热插拔测试

作为临时规避措施:

  • 尝试对网卡进行热插拔操作,重新建立MCTP Endpoint
  • 若问题复现率高,可考虑临时回退至稳定BMC版本

总结

项目 内容
问题类型 带外通信故障
根本原因 MCTP通信失败导致NCSI命令无法执行
涉及协议 NCSI over MCTP over SMbus
影响组件 RP1000P2SFP-A03网卡温度、MAC、序列号等信息无法获取
系统表现 触发TempFail事件,健康状态降级,风扇可能异常调速
解决方向 检查MCTP链路、升级/修复驱动、增加通信容错

麻烦提供下固件使用的img版本,还有component_drivers,libmcpp,devmon的版本号。

好的 请问下img版本是什么 网卡驱动吗?

os下ethtool -i 网卡,类似这样输出

组件版本比较老,建议用最新的南向部件仓试下。

HuaKunAT525B2_2187383AT525B2BALLGRTDTSET_20260317-1445.tar.gz.txt (7.5 MB)