9560 16i raid卡下的硬盘在AC后,进入系统后web会出现盘丢失的情况

答案内容由AI生成,仅供参考:

:pushpin: 总结

项目 内容
问题本质 BMC Web在AC重启后因RAID卡初始化延迟,导致RAID卡硬盘信息短暂丢失,属管理面显示异常
根本原因
  1. BMC与RAID卡启动时序不同步
  2. I2C/MCTP通信初始化延迟
  3. Storage模块未做状态缓存或防抖
  4. BMA服务加载滞后 |
    | 解决方案 |
  5. 升级至更新版openUBMC(≥25.15)
  6. 升级RAID卡及BBU固件
  7. 优化I2C物理连接与探测逻辑
  8. 必要时由厂商提供定制补丁 |
    | 是否严重 | :cross_mark: 不影响系统运行,可视为低优先级优化项 |
点击此处查看详细分析解答

华为9560-16i RAID卡在AC后硬盘显示异常问题分析报告

根据您提供的信息,问题表现为:在使用 openUBMC 25.12 系统并搭载 9560-16i RAID卡 的环境下,经历AC断电重启(AC cycle)后,进入操作系统,BMC Web界面中该RAID卡管理的硬盘会先短暂出现,随后在3-4分钟内部分丢失,约7-8分钟后重新恢复。


:magnifying_glass_tilted_left: 问题现象总结

项目 内容
RAID卡型号 Broadcom 9560-16i
BMC系统版本 openUBMC 25.12
操作流程 AC断电重启 → 系统启动完成 → 登录BMC Web
具体现象
  1. 初期Web界面上可正常识别多个硬盘(如Disk0, Disk1, Disk5-Disk11等);
  2. 约3-4分钟后,部分硬盘“消失”或状态变为不可用;
  3. 再过约7-8分钟,所有硬盘重新正常显示;
  4. 所有硬盘在主机OS中实际工作正常,仅BMC Web界面呈现波动; |

:pushpin: 核心问题定位
这不是实际的硬件或硬盘故障,而是BMC系统与RAID卡之间带外管理信息同步存在延迟或短暂中断所致的“假丢盘”现象。


:puzzle_piece: 根因分析

结合 知识图谱搜索结果 中的技术背景,该问题的根本原因如下:

:white_check_mark: 1. RAID卡的带外管理依赖MCTP + I2C通信

  • RAID卡管理机制
    openUBMC通过 Management Component Transport Protocol (MCTP) 与9560-16i RAID卡进行通信,实现带外管理(OOB Management)。

  • 底层传输依赖I2C
    MCTP通常基于 SMBus/I2C 物理链路传输命令。在系统AC重启后,BMC需重新初始化与RAID卡的I2C通信通道。

来自《CSR硬件监控防抖机制》文档:

RAID卡通信状态受 contbin_H10L5contbin_H20L5 二值防抖机制保护,用于检测 PCIe RAID卡控制器通信丢失 或 I2C访问失败。

此类防抖机制可能导致状态判断延迟(如高电平需连续检测10次),从而延迟识别为“通信正常”。


:white_check_mark: 2. BMC与RAID卡启动时序不同步

  • BMC启动快于RAID卡固件初始化
    在AC重启后,BMC会较快进入运行状态,而RAID卡的固件(特别是BBU、OptionROM等)需要更长时间完成自检和初始化。

  • 早期读取失败 → 信息被清空
    BMC在RAID卡未准备好时尝试获取物理盘信息,返回为空或错误,Storage模块可能因此“清空”当前记录,表现为盘“丢失”。

  • 后期重新探测成功 → 信息恢复
    当RAID卡完全初始化后,BMC再次轮询成功,数据重新加载,故硬盘重新显示。


:white_check_mark: 3. openUBMC Storage模块热插拔探测机制影响

  • Storage模块设计原理
    BMC的 storage 模块通过监听 自发现信号 创建硬盘对象,并与RAID卡上报的物理盘信息进行 映射绑定(称为“硬盘定位”)。

  • AC后状态不稳定
    在RAID卡尚未完全就绪时,on_add_object 信号可能触发不完整,导致部分硬盘未完成绑定,被标记为“不存在”。

  • 支持多协议并行加载但仍存在缺陷
    虽然 openUBMC 25.06 版本引入了 “RAID卡管理支持多协议库并行加载” 特性(增强兼容性),但在 9560-16i 这类Broadcom卡上仍可能存在初始化竞争。


:white_check_mark: 4. BMC Web界面信息依赖BMA服务

  • 提示信息佐证
    您截图中显示蓝色提示:

    “此页面的RAID控制器、逻辑驱动器、物理驱动器的信息依赖RAID卡的带外管理功能,并且在系统引导完成或安装并完全启动BMA 2.0后才能显示。”

  • BMA服务延迟启动
    即使系统已进入OS,BMA(iBMC Management Agent)服务可能仍在加载。在BMA完全运行前,Web界面无法获取稳定数据。

  • 建议:验证 bma_mdb_mgmt 是否曾报错或延迟加载:

    storage DEBUG: bma_mdb_mgmt.lual(265): c_bma_mdb_mgmt: add bma object...
    

    若日志中对象多次增删,则说明存在反复探测行为。


:locked: 是否影响业务?

影响项 是否受影响 说明
数据读写 :cross_mark: 硬盘仍在OS中正常运行,无I/O异常
RAID阵列健康 :cross_mark: 实际RAID状态未变化
告警上报 :warning: 可能误报 若BMC判断RAID卡通信中断,可能触发 RAID Controller Card 1 Failure 告警(临时性)
BMC远程管理 :warning: 界面失真 仅Web显示异常,非真实故障

结论:属于“管理面”信息延迟问题,不影响“数据面”正常运行。


:white_check_mark: 解决方案与建议

:white_check_mark: 方案一:升级至支持更优时序控制的openUBMC版本

  • 推荐升级至 openUBMC 25.15 及以上版本,尤其是针对以下特性:
    • 更完善的 MCTP over SMBus 链路恢复机制
    • 改进的 RAID卡冷启动兼容性处理
    • 更稳健的 Storage模块缓存策略,避免频繁刷新导致UI抖动

参考来源:《openUBMC 25.06版本发布》提到已支持 9560-8i/9440-8i/SP686C-M 16i 等RAID卡管理能力;后续版本持续优化。


:white_check_mark: 方案二:检查并优化I2C通信稳定性

  1. 确认I2C地址是否可达

    • 使用命令检查RAID卡I2C设备是否存在:
      i2cget -f -y <bus> <address>
      
    • 若AC后I2C访问失败,可能是硬件连接或驱动延迟。
  2. 确保RAID卡固件为最新

    • 升级9560-16i至最新固件版本(建议 ≥ 5.91)
    • 同时升级BBU固件,防止初始化超时
  3. 排查背板与RAID卡连接

    • 检查主板与RAID卡间的 高速SAS线缆 是否松动
    • 排查是否存在 CPLD点灯控制干扰

:white_check_mark: 方案三:调整Storage模块探测逻辑(适用于开发/定制环境)

  • 延长首次探测延迟:在BMC启动脚本中加入延迟,等待RAID卡初始化完成后再启动Storage服务。
  • 引入状态缓存机制:即使某次探测失败,保留上一次有效数据,避免“闪退”现象。
  • 启用防抖参数优化
    # 针对RAID卡通信使用 contbin_H20L5
    Sensor: PCIe RAID卡控制器通信丢失 -> 防抖 H20L5(高电平20次,防抖约10秒)
    

:white_check_mark: 方案四:联系华为技术支持确认定制适配

由于 9560-16i 并非华为自研RAID卡(而是Broadcom方案),可能存在 OEM适配不完全 的情况。

提示:华为自研RAID卡如 SP686C-M-16i 2G 已获充分支持(见知识库及文档),而第三方卡支持可能存在差异。

建议提供以下信息给华为支持团队:

  • 完整BMC日志(含 bma_mdb_mgmtstorage 模块)
  • ipmcget -d status 输出
  • AC重启全过程的串口日志
  • 使用的BMA版本号(可通过Web API查询)

:pushpin: 总结

项目 内容
问题本质 BMC Web在AC重启后因RAID卡初始化延迟,导致RAID卡硬盘信息短暂丢失,属管理面显示异常
根本原因
  1. BMC与RAID卡启动时序不同步
  2. I2C/MCTP通信初始化延迟
  3. Storage模块未做状态缓存或防抖
  4. BMA服务加载滞后 |
    | 解决方案 |
  5. 升级至更新版openUBMC(≥25.15)
  6. 升级RAID卡及BBU固件
  7. 优化I2C物理连接与探测逻辑
  8. 必要时由厂商提供定制补丁 |
    | 是否严重 | :cross_mark: 不影响系统运行,可视为低优先级优化项 |

:pushpin: 最终建议
若您当前系统运行稳定且硬盘功能正常,此问题可视作界面偶发刷新延迟,无需紧急处理。建议在下次系统维护窗口时进行 openUBMC版本升级RAID固件更新 以彻底规避。

如有进一步日志,欢迎提供以深入分析。

相关链接:

  1. SP686Craid卡下硬盘异常问题
  2. 非天池机型服务器RAID下SATA硬盘点灯判断硬盘在位获取信息
  3. 社区25.06版本加载9500 8i Raid卡失败
  4. 【storage】【问题求助】双raid卡时概率 性有一张raid 卡 数据信息无法刷新成功
  5. CSR硬件监控防抖机制 | 文档中心 | openUBMC