问题描述
为解决线缆告警问题,我们在psr里修改了线缆配置,升级后raid卡出现告警,升级前不存在:
psr中总共修改了两处:
1.UnitConfiguration_IEU1新增riser卡的线缆配置,raid卡就插在槽位3
1.UnitConfiguration_SEU1_1修改背板的线缆配置
环境信息
-
软件版本:iBMC 5.11.12.18
-
硬件配置:920bs
为解决线缆告警问题,我们在psr里修改了线缆配置,升级后raid卡出现告警,升级前不存在:
psr中总共修改了两处:
1.UnitConfiguration_IEU1新增riser卡的线缆配置,raid卡就插在槽位3
1.UnitConfiguration_SEU1_1修改背板的线缆配置
环境信息
软件版本:iBMC 5.11.12.18
硬件配置:920bs
答案内容由AI生成,仅供参考:
| 项目 | 结论 |
|---|---|
| 告警原因 | PSR 中 UnitConfiguration 配置错误导致 I²C 路径异常,无法读取 RAID 卡 EEPROM |
| 关键错误 | Slot 数组长度与 SrcPortName 不匹配、Index=0 非法 |
| 深层问题 | 当前 openUBMC 不支持 RAID 卡的线缆告警,强行配置易引发异常 |
| 解决方案 | 修正数组长度、调整 Index、移除非支持设备配置 |
| 最终建议 | 不要为非华为原生 Riser/RAID 卡配置线缆检测功能 |
建议配置完成后通过
fru show和 Web 界面双重验证 PCIe 设备状态是否正常。
0x08000045 的问题分析与解决方案根据您提供的信息,系统在修改 PSR 配置并升级后,出现了 严重告警:
事件码:
0x08000045
事件描述:The PCIe card 3 (SP686C-M-16I 2G) EEPROM is fault.
相关组件: PCIe Card 3(型号为 SP686C-M-16I 2G 的 RAID 卡)
以下将结合上下文对问题进行详细分析和定位。
UnitConfiguration_IEU1 和 UnitConfiguration_SEU1_1,以支持线缆检测(cable detection)功能。0x08000045 告警的含义此告警表示:
PCIe 扩展卡的 EEPROM 出现读取失败或校验错误。
UnitConfiguration_IEU1 配置异常您修改前后的配置如下:
"Slot": [1, 2, 3]
"SrcPortName": ["A1a", "A1c"]
"TargetPortID": [33, 49]
SrcPortName 只有两个端口(A1a, A1c)TargetPortID 有两个 ID(33, 49)Slot 却定义了 三个槽位(1, 2, 3)
正确规则(根据 openUBMC 社区规范):
SrcPortName,TargetPortID,Slot必须一一对应,数量要完全一致!
潜在后果:
0x08000045 告警。UnitConfiguration_SEU1_1 中 Index: 0 非法"Index": 0
UnitConfiguration 规范中,Index 是索引字段,通常从 1 开始编号。Index: 0 可能导致:
建议:所有
Index字段应 ≥ 1。
根据您的搜索结果中多位专家(如“王祝炜”)明确指出:
当前 openUBMC 平台仅支持华为自研 Riser 卡和硬盘背板的 UBC 高速线缆检测。
不支持第三方 RAID 卡(如 Broadcom/PMC)的线缆检测功能。
来源:【9500-8i的port A B线缆交叉不产生告警】
UnitConfiguration 会导致 误匹配、误识别
结论:为 RAID 卡所在 Riser 卡配置线缆检测属于“超范围配置”,系统行为不可预测。
UnitConfiguration_IEU1 数组长度不一致问题确保 SrcPortName, TargetPortID, Slot 三项长度一致。
若只连接两个下行端口,则应改为:
"UnitConfiguration_IEU1": {
"Configurations": [
{
"UID": "0000001040302044498",
"Index": 1,
"Default": true,
"SrcPortName": ["A1a", "A1c"],
"TargetPortID": [33, 49],
"Slot": [1, 2],
"Device": []
}
],
"Port1LinkInfo": ""
}
若需支持 Slot 3,请确认硬件上是否有真实连接,并补充相应的
SrcPortName和TargetPortID。
UnitConfiguration_SEU1_1 的 Index 为合法值"Index": 1 // 而非 0
删除对 RAID 卡所插 Riser 卡的
UnitConfiguration中不必要的线缆白名单设置。
如果您使用的是标准 RAID 卡(如 SP686C-M-16I),建议:
1.01 → 1.02)bmccfg restore -t psr -f new_psr.bin
hwdiscovery 重新发现硬件:systemctl restart hwdiscovery
fru show # 查看 PCIe Card 3 是否显示 FRU 信息
| 建议 | 说明 |
|---|---|
| 严格遵循数组一致性原则 | SrcPortName, TargetPortID, Slot 数量必须相同 |
| 避免为不支持设备配置线缆检测 | 目前仅支持华为原生 Riser/背板 |
| 使用 CSR 工具辅助配置 | 推荐使用 BMC Studio 图形化工具生成 PSR,避免手写错误 |
| 测试前备份原配置 | 防止升级失败无法回退 |
UnitConfiguration 配置方法Slot 配置规范| 项目 | 结论 |
|---|---|
| 告警原因 | PSR 中 UnitConfiguration 配置错误导致 I²C 路径异常,无法读取 RAID 卡 EEPROM |
| 关键错误 | Slot 数组长度与 SrcPortName 不匹配、Index=0 非法 |
| 深层问题 | 当前 openUBMC 不支持 RAID 卡的线缆告警,强行配置易引发异常 |
| 解决方案 | 修正数组长度、调整 Index、移除非支持设备配置 |
| 最终建议 | 不要为非华为原生 Riser/RAID 卡配置线缆检测功能 |
建议配置完成后通过
fru show和 Web 界面双重验证 PCIe 设备状态是否正常。
回退PSR 告警会消失吗 这个Scanner的Status为1会触发该告警
"Scanner_Eeprom_Raid": {
"Chip": "#/Eeprom_Raid",
"Size": 1,
"Offset": 0,
"Mask": 255,
"Period": 1000,
"Type": 0,
"Debounce": "None"
},
在appdump/hwproxy/snapshot.csv里找到这个Scanner看K列的Error记录了错误原因