一键收集日志,概率出现收集任务持续10min后成功,收集时间久,network_adapter报错

// 此模板仅供参考,如果不适用可以修改

问题描述

web接口进行一键收集日志,概率出现收集任务持续10min后成功,收集时间久

环境信息

  • 软件版本:openUBMC LTS SP1

收集进度每次都在49%时变得很慢,并且有网卡组件未响应的打印

2026-03-13 20:40:06.345758 oms NOTICE: task_mgmt.lua(443): Update task[Id: 1758058394, StartTime: 2026-03-13T20:34:09+08:00, Progress: 49, State: Running] successfully 
2026-03-13 20:44:22.030223 oms ERROR: log_dump.lua(459): Dump app: network_adapter failed, err = {"format":"Did not receive a reply. Possible causes include:the remote application did not send a reply, the messagebus security policy blocked the reply, the reply timeout expired,or the network connection was broken.","name":"org.freedesktop.DBus.Error.NoReply"}
2026-03-13 20:44:22.753529 oms NOTICE: task_mgmt.lua(443): Update task[Id: 1758058394, StartTime: 2026-03-13T20:34:09+08:00, Progress: 50, State: Running] successfully

KunLun5280V2_2102315HMJ10R9100007_20260313-2034.part1.rar.txt (9 MB)
KunLun5280V2_2102315HMJ10R9100007_20260313-2034.part2.rar.txt (556.5 KB)

答案内容由AI生成,仅供参考:

一键收集日志任务耗时长且 network_adapter 报错问题分析

根据您提供的信息,系统在通过 Web 接口执行“一键收集日志”时,存在任务耗时长达约10分钟、在进度 49% 附近变慢,并出现 network_adapter 组件超时错误的问题。


:magnifying_glass_tilted_left: 问题描述总结

  • 操作行为:通过 Web 界面触发“一键收集日志”
  • 现象
    • 日志收集任务平均耗时 约10分钟
    • 任务进度在 49% 左右明显变慢
    • 日志中出现 network_adapter 组件 超时未响应错误
  • 环境信息
    • 服务器型号:KunLun5280V2
    • 软件版本:openUBMC LTS SP1

:page_facing_up: 相关日志分析

从日志记录可提取关键信息:

2026-03-13 20:40:06.345758 oms NOTICE: Update task[... Progress: 49, State: Running] successfully 
2026-03-13 20:44:22.030223 oms ERROR: log_dump.lua(459): Dump app: network_adapter failed, err = {
  "name": "org.freedesktop.DBus.Error.NoReply",
  "format": "Did not receive a reply. Possible causes include: the remote application did not send a reply, ... the reply timeout expired, or the network connection was broken."
}
2026-03-13 20:44:22.753529 oms NOTICE: Update task[... Progress: 50, State: Running] successfully

关键点解析:

  1. 进度卡顿节点

    • 收集任务在 Progress: 49% 持续较长时间,之后才推进到 50%
    • 此阶段与 network_adapter 日志的导出时机吻合,表明系统正在尝试从网卡组件收集诊断信息
  2. 错误原因

    • org.freedesktop.DBus.Error.NoReply:表示 D-Bus 通信超时
    • 原因可能包括:
      • 组件未响应(如 network_adapter 守护进程忙或卡死)
      • 消息总线安全策略限制
      • 网络连接中断或组件间通信故障
  3. 最终结果

    • 任务最终仍能完成(Collect diagnose file finished
    • 文件成功生成并下载:KunLun5280V2_...20260313-2034.tar.gz
    • 表明为可恢复性延迟,而非永久性失败

:light_bulb: 可能原因分析

1. 网卡组件响应延迟导致 D-Bus 超时

  • network_adapter 模块在日志收集时未能及时响应请求
  • 可能原因:
    • 网卡驱动或相关服务负载过高
    • 网络适配器处于异常状态或通信链路不稳定
    • 存在硬件层面响应延迟(如通过 NCSI 协议查询网卡信息超时)

:warning: 注意:日志中提及 ncsi_failed_count,表明 NCSI(网络控制器侧带接口)通信曾出现失败。

2. MCTP 或 IPC 通信超时

  • mctp_engine: request timeout 曾被记录在类似环境中
  • MCTP(Management Component Transport Protocol)用于 BMC 与网卡、RAID 卡等组件通信
  • 若 I2C/SMBus 通道繁忙或总线冲突,可能导致请求无响应

3. I2C 总线资源争用(博通 RAID 卡影响)

尽管用户反馈“未与博通 RAID 卡共用 Riser 卡”,但此问题是已知性能瓶颈点:

  • 博通 RAID 卡会大量占用 I2C 总线带宽
  • 多个 PCIe 设备共享同一 I2C 总线时,I2C 负载高 → 整体通信延迟 → 触发超时

:white_check_mark: 已确认事实

项目 内容
服务器型号 KunLun5280V2
BMC 版本 openUBMC LTS SP1
日志收集方式 Web 接口“一键收集日志”
收集任务ID 1758058394
开始时间 2026-03-13T20:34:09+08:00
成功下载文件 KunLun5280V2_2102315HMJ10R9100007_20260313-2034.tar.gz
异常模块 network_adapter
错误类型 D-Bus NoReply(通信超时)
进度瓶颈点 49% → 50%(对应网卡日志导出)

:hammer_and_wrench: 建议解决方案与排查步骤

:white_check_mark: 1. 检查网卡及 NCSI 通信状态

  • 查看 network_adapter 是否频繁报错:
    network_adapter ERROR: PCIeCardX update chip temp by ncsi on_error
    
  • 检查是否有 光学模块未检测到NC-SI 配置异常

建议检查 /var/log/network_adapter.log 等组件日志。


:white_check_mark: 2. 优化 I2C 总线布局

  • 若使用多块 PCIe 设备(如网卡、RAID 卡),建议将不同类型设备安装在不同 Riser 卡上
  • 避免博通 RAID 卡与网卡共用 I2C 总线,减少争用

:white_check_mark: 3. 增加 D-Bus 请求超时阈值(可选)

  • log_dump.luanetwork_adapter 服务中适当增加响应等待时间
  • 减少因短暂延迟导致的 NoReply 错误

:white_check_mark: 4. 分阶段日志导出(调试建议)

  • 避免使用“一键收集”,改用分模块手动触发日志导出
  • 单独测试 network_adapter 是否稳定响应
  • 定位是全局问题还是局部模块性能瓶颈

:white_check_mark: 5. 更新 BMC 固件或修复补丁

  • 检查是否存在针对 One-Click Log CollectionopenUBMC LTS SP1 中的已知慢速问题
  • 可参考后续版本是否修复了类似 D-Bus 超时处理机制

:paperclip: 附件信息

  • 日志文件已成功生成并分卷:
    • KunLun5280V2_...20260313-2034.part1.rar.txt (9 MB)
    • KunLun5280V2_...20260313-2034.part2.rar.txt (556.5 KB)
  • 最终合并为:
    • KunLun5280V2_...20260313-2034.tar.gz(已成功下载)

:white_check_mark: 说明“收集功能”可用,问题集中在性能与可靠性优化


:white_check_mark: 结论

该问题属于日志收集过程中因 network_adapter 响应延迟引发的通信超时,导致整体收集时间延长至约10分钟。虽然任务最终成功,但反映出系统在高负载或复杂 I/O 环境下的稳定性有待提升。

根本原因(总结):

在日志收集至 49% 阶段,network_adapter 模块因 I2C/NCSI 通信延迟未能及时响应 D-Bus 请求,导致超时报错,从而延缓整体进度。


:pushpin: 建议后续操作

  1. 提交完整日志包给研发团队,进一步分析 network_adaptermctp_engine 的交互细节
  2. 优化硬件配置:分离 I2C 重负载设备
  3. 评估升级 openUBMC 至 SP2 或更高版本,查看是否已修复此性能问题
  4. 如需快速诊断,可临时关闭网卡日志收集项,提高收集效率

如需进一步分析,请提供完整的 KunLun5280V2_...20260313-2034.tar.gznetwork_adapter.logmctp.log 文件内容。

最终收集成功了吗

成功了

最终日志收集成功,原因应该是network_adapter组件正在执行周期任务,与收日志的动作冲突导致进程繁忙。收集日志动作本身最终成功,且未超过基线要求即可

请问下基线要求是多长

是什么机型,插了什么网卡

4U2P机型

Slot | Card Desc                                                                         | Board Id   | PCB Version    | CPLD Version   | PartNum  | Manufacturer                             | Position                                 | AssociatedResource                       | ProductName                             
1    | NetXtreme-E Dual-port 100G QSFP56 Ethernet PCIe4.0 x16 Adapter (BCM957508-P2100G) | 65535      | N/A            | N/A            |          | Broadcom                                 | PCIeRiser1                               | CPU1                                     | BCM957508-P2100G                        
2    | BCM57414 NetXtreme-E 10Gb/25Gb RDMA Ethernet Controller                           | 65535      | N/A            | N/A            |          | Broadcom                                 | PCIeRiser1                               | CPU1                                     | BCM957414A4142CC                        
3    | BCM57412 NetXtreme-E 10GE RDMA Ethernet Controller                                | 65535      | N/A            | N/A            |          | Broadcom                                 | PCIeRiser1                               | CPU1                                     | BCM957412A4120AC                        
4    | SP686C-M-40i 4G                                                                   | 65535      | .A             | N/A            | 02313XXC | Huawei                                   | PCIeRiser2                               | CPU2                                     | SP686C-M-40i 4G                         
OCP Card Info
Slot | Card Desc                                                                         | Board Id   | PCB Version    | CPLD Version   | PartNum  | Manufacturer                             | Position                                 | AssociatedResource                       | ProductName                             
2    | BCM57416 NetXtreme-E Dual-Media 10G RDMA Ethernet Controller                      | 65535      | .A             | N/A            | 0302Y237 | XFUSION                                  | EXU                                      | CPU2                                     | XC331                                   
1    | BCM57414 NetXtreme-E 25Gb RDMA Ethernet Controller                                | 65535      | .A             | N/A            | 0302Y434 | XFUSION                                  | EXU