baominmin
(kunlun_Baominmin)
1
// 此模板仅供参考,如果不适用可以修改
问题描述
web接口进行一键收集日志,概率出现收集任务持续10min后成功,收集时间久
环境信息
收集进度每次都在49%时变得很慢,并且有网卡组件未响应的打印
2026-03-13 20:40:06.345758 oms NOTICE: task_mgmt.lua(443): Update task[Id: 1758058394, StartTime: 2026-03-13T20:34:09+08:00, Progress: 49, State: Running] successfully
2026-03-13 20:44:22.030223 oms ERROR: log_dump.lua(459): Dump app: network_adapter failed, err = {"format":"Did not receive a reply. Possible causes include:the remote application did not send a reply, the messagebus security policy blocked the reply, the reply timeout expired,or the network connection was broken.","name":"org.freedesktop.DBus.Error.NoReply"}
2026-03-13 20:44:22.753529 oms NOTICE: task_mgmt.lua(443): Update task[Id: 1758058394, StartTime: 2026-03-13T20:34:09+08:00, Progress: 50, State: Running] successfully
KunLun5280V2_2102315HMJ10R9100007_20260313-2034.part1.rar.txt (9 MB)
KunLun5280V2_2102315HMJ10R9100007_20260313-2034.part2.rar.txt (556.5 KB)
答案内容由AI生成,仅供参考:
一键收集日志任务耗时长且 network_adapter 报错问题分析
根据您提供的信息,系统在通过 Web 接口执行“一键收集日志”时,存在任务耗时长达约10分钟、在进度 49% 附近变慢,并出现 network_adapter 组件超时错误的问题。
问题描述总结
- 操作行为:通过 Web 界面触发“一键收集日志”
- 现象:
- 日志收集任务平均耗时 约10分钟
- 任务进度在 49% 左右明显变慢
- 日志中出现
network_adapter 组件 超时未响应错误
- 环境信息:
- 服务器型号:
KunLun5280V2
- 软件版本:
openUBMC LTS SP1
相关日志分析
从日志记录可提取关键信息:
2026-03-13 20:40:06.345758 oms NOTICE: Update task[... Progress: 49, State: Running] successfully
2026-03-13 20:44:22.030223 oms ERROR: log_dump.lua(459): Dump app: network_adapter failed, err = {
"name": "org.freedesktop.DBus.Error.NoReply",
"format": "Did not receive a reply. Possible causes include: the remote application did not send a reply, ... the reply timeout expired, or the network connection was broken."
}
2026-03-13 20:44:22.753529 oms NOTICE: Update task[... Progress: 50, State: Running] successfully
关键点解析:
-
进度卡顿节点:
- 收集任务在
Progress: 49% 持续较长时间,之后才推进到 50%
- 此阶段与
network_adapter 日志的导出时机吻合,表明系统正在尝试从网卡组件收集诊断信息
-
错误原因:
org.freedesktop.DBus.Error.NoReply:表示 D-Bus 通信超时
- 原因可能包括:
- 组件未响应(如
network_adapter 守护进程忙或卡死)
- 消息总线安全策略限制
- 网络连接中断或组件间通信故障
-
最终结果:
- 任务最终仍能完成(
Collect diagnose file finished)
- 文件成功生成并下载:
KunLun5280V2_...20260313-2034.tar.gz
- 表明为可恢复性延迟,而非永久性失败
可能原因分析
1. 网卡组件响应延迟导致 D-Bus 超时
network_adapter 模块在日志收集时未能及时响应请求
- 可能原因:
- 网卡驱动或相关服务负载过高
- 网络适配器处于异常状态或通信链路不稳定
- 存在硬件层面响应延迟(如通过 NCSI 协议查询网卡信息超时)
注意:日志中提及 ncsi_failed_count,表明 NCSI(网络控制器侧带接口)通信曾出现失败。
2. MCTP 或 IPC 通信超时
mctp_engine: request timeout 曾被记录在类似环境中
- MCTP(Management Component Transport Protocol)用于 BMC 与网卡、RAID 卡等组件通信
- 若 I2C/SMBus 通道繁忙或总线冲突,可能导致请求无响应
3. I2C 总线资源争用(博通 RAID 卡影响)
尽管用户反馈“未与博通 RAID 卡共用 Riser 卡”,但此问题是已知性能瓶颈点:
- 博通 RAID 卡会大量占用 I2C 总线带宽
- 多个 PCIe 设备共享同一 I2C 总线时,I2C 负载高 → 整体通信延迟 → 触发超时
已确认事实
| 项目 |
内容 |
| 服务器型号 |
KunLun5280V2 |
| BMC 版本 |
openUBMC LTS SP1 |
| 日志收集方式 |
Web 接口“一键收集日志” |
| 收集任务ID |
1758058394 |
| 开始时间 |
2026-03-13T20:34:09+08:00 |
| 成功下载文件 |
KunLun5280V2_2102315HMJ10R9100007_20260313-2034.tar.gz |
| 异常模块 |
network_adapter |
| 错误类型 |
D-Bus NoReply(通信超时) |
| 进度瓶颈点 |
49% → 50%(对应网卡日志导出) |
建议解决方案与排查步骤
1. 检查网卡及 NCSI 通信状态
建议检查 /var/log/network_adapter.log 等组件日志。
2. 优化 I2C 总线布局
- 若使用多块 PCIe 设备(如网卡、RAID 卡),建议将不同类型设备安装在不同 Riser 卡上
- 避免博通 RAID 卡与网卡共用 I2C 总线,减少争用
3. 增加 D-Bus 请求超时阈值(可选)
- 在
log_dump.lua 或 network_adapter 服务中适当增加响应等待时间
- 减少因短暂延迟导致的
NoReply 错误
4. 分阶段日志导出(调试建议)
- 避免使用“一键收集”,改用分模块手动触发日志导出
- 单独测试
network_adapter 是否稳定响应
- 定位是全局问题还是局部模块性能瓶颈
5. 更新 BMC 固件或修复补丁
- 检查是否存在针对
One-Click Log Collection 在 openUBMC LTS SP1 中的已知慢速问题
- 可参考后续版本是否修复了类似 D-Bus 超时处理机制
附件信息
- 日志文件已成功生成并分卷:
KunLun5280V2_...20260313-2034.part1.rar.txt (9 MB)
KunLun5280V2_...20260313-2034.part2.rar.txt (556.5 KB)
- 最终合并为:
KunLun5280V2_...20260313-2034.tar.gz(已成功下载)
说明“收集功能”可用,问题集中在性能与可靠性优化
结论
该问题属于日志收集过程中因 network_adapter 响应延迟引发的通信超时,导致整体收集时间延长至约10分钟。虽然任务最终成功,但反映出系统在高负载或复杂 I/O 环境下的稳定性有待提升。
根本原因(总结):
在日志收集至 49% 阶段,network_adapter 模块因 I2C/NCSI 通信延迟未能及时响应 D-Bus 请求,导致超时报错,从而延缓整体进度。
建议后续操作
- 提交完整日志包给研发团队,进一步分析
network_adapter 和 mctp_engine 的交互细节
- 优化硬件配置:分离 I2C 重负载设备
- 评估升级 openUBMC 至 SP2 或更高版本,查看是否已修复此性能问题
- 如需快速诊断,可临时关闭网卡日志收集项,提高收集效率
如需进一步分析,请提供完整的 KunLun5280V2_...20260313-2034.tar.gz 中 network_adapter.log 或 mctp.log 文件内容。
最终日志收集成功,原因应该是network_adapter组件正在执行周期任务,与收日志的动作冲突导致进程繁忙。收集日志动作本身最终成功,且未超过基线要求即可
baominmin
(kunlun_Baominmin)
8
4U2P机型
Slot | Card Desc | Board Id | PCB Version | CPLD Version | PartNum | Manufacturer | Position | AssociatedResource | ProductName
1 | NetXtreme-E Dual-port 100G QSFP56 Ethernet PCIe4.0 x16 Adapter (BCM957508-P2100G) | 65535 | N/A | N/A | | Broadcom | PCIeRiser1 | CPU1 | BCM957508-P2100G
2 | BCM57414 NetXtreme-E 10Gb/25Gb RDMA Ethernet Controller | 65535 | N/A | N/A | | Broadcom | PCIeRiser1 | CPU1 | BCM957414A4142CC
3 | BCM57412 NetXtreme-E 10GE RDMA Ethernet Controller | 65535 | N/A | N/A | | Broadcom | PCIeRiser1 | CPU1 | BCM957412A4120AC
4 | SP686C-M-40i 4G | 65535 | .A | N/A | 02313XXC | Huawei | PCIeRiser2 | CPU2 | SP686C-M-40i 4G
OCP Card Info
Slot | Card Desc | Board Id | PCB Version | CPLD Version | PartNum | Manufacturer | Position | AssociatedResource | ProductName
2 | BCM57416 NetXtreme-E Dual-Media 10G RDMA Ethernet Controller | 65535 | .A | N/A | 0302Y237 | XFUSION | EXU | CPU2 | XC331
1 | BCM57414 NetXtreme-E 25Gb RDMA Ethernet Controller | 65535 | .A | N/A | 0302Y434 | XFUSION | EXU