25 1230版本BMC
RP1000P2SFP-A03网卡获取温度失败
答案内容由AI生成,仅供参考:
| 项目 | 内容 |
|---|---|
| 问题类型 | 带外通信故障 |
| 根本原因 | MCTP通信失败导致NCSI命令无法执行 |
| 涉及协议 | NCSI over MCTP over SMbus |
| 影响组件 | RP1000P2SFP-A03网卡温度、MAC、序列号等信息无法获取 |
| 系统表现 | 触发TempFail事件,健康状态降级,风扇可能异常调速 |
| 解决方向 | 检查MCTP链路、升级/修复驱动、增加通信容错 |
在使用25.1230版本BMC的系统中,RP1000P2SFP-A03型号网卡出现温度数据读取失败的问题。系统产生告警,事件码为 0x8000005,级别为轻微,设备序列号为 020182032413105346。
告警显示:“Failed to obtain data of the PCIe Card 2 (RP1000P2SFP-A03) temperature”,即无法获取PCIe卡2(RP1000P2SFP-A03)的温度数据。
根据日志和系统上下文分析,问题由MCTP(Management Component Transport Protocol)通信链路异常引发,导致无法通过带外协议获取网卡信息。
核心错误日志:
2026-03-17 14:12:47.969987 daemon ERROR: ncsi_over_mctp_wx.cpp(72): Error: failed to send NCSI get temperature command
2026-03-17 14:12:47.970565 daemon ERROR: ncsi_over_mctp_wx.cpp(131): Error: failed to send NCSI get serial number command
2026-03-17 14:12:47.971056 daemon ERROR: ncsi_over_mctp_wx.cpp(105): Error: failed to send NCSI get MAC address command
多个 ncsi_over_mctp_wx.cpp 模块报错表明:系统尝试通过 NCSI over MCTP over SMbus 协议获取网卡温度、序列号、MAC地址等信息均失败。
事件触发标志:
2026-03-17 14:12:27.999134 event NOTICE: hardware_event.lua(578): Event TempFail_01010502[{"source":{"properties":[{"Property":"TemperatureStatus","Path":"/bmc/dev/System/1/PCIE NicCard/PCIE NicCard_1_01010502","Service":"PCIE NicCard"}],"Value":1,"Tech":"Temperature"}}, "message":"Temperature Status changed to 1"]
TemperatureStatus 被设置为 1(表示温度故障),触发了 TempFail_01010502 事件。
系统依赖MCTP协议实现带外管理。当MCTP链路不稳定或Endpoint未成功创建时,所有基于MCTP的命令(温度、MAC地址、LLDP状态等)均无法发送。
此问题与知识库中LPe32002-AP网卡的 create_endpoint failed 错误一致(参考文档 4348 和 4085),表明该问题具有共性。
RP1000P2SFP-A03 属于支持 NCSI over MCTP over SMbus 的网卡类型。若SMbus物理链路或MCTP服务异常,即使网卡物理在位,BMC也无法与之通信。
日志中持续的“failed to send NCSI get…”命令错误表明通信链路处于持久性故障状态。
PCIe NIC 温度传感器无法读取,系统无法进行热管理和调速。80%),影响噪音与能耗参考openUBMC 25.09版本发布说明,RP1000P2SFP-A03 已在支持列表中:
新增标卡和OCP网卡,包括…
RP1000P2SFP-A03等支持
建议确认当前 25.1230版本 是否包含针对该网卡MCTP通信的修复补丁。
mctpd)是否有 create_endpoint failed 或 msg_type=0 异常。参考“CSR硬件监控防抖机制”文档,建议对网卡温度获取增加:
作为临时规避措施:
| 项目 | 内容 |
|---|---|
| 问题类型 | 带外通信故障 |
| 根本原因 | MCTP通信失败导致NCSI命令无法执行 |
| 涉及协议 | NCSI over MCTP over SMbus |
| 影响组件 | RP1000P2SFP-A03网卡温度、MAC、序列号等信息无法获取 |
| 系统表现 | 触发TempFail事件,健康状态降级,风扇可能异常调速 |
| 解决方向 | 检查MCTP链路、升级/修复驱动、增加通信容错 |
麻烦提供下固件使用的img版本,还有component_drivers,libmcpp,devmon的版本号。
好的 请问下img版本是什么 网卡驱动吗?
组件版本比较老,建议用最新的南向部件仓试下。