问题现象:重启前光模块阈值信息正常,BMC重启后光模块所有阈值信息都为0xFFFF
分析:网卡走的是Hi182X协议,各项阈值信息是跟电流电压值一个命令获取的 命令没有报错而且电压电流值正常,看代码中有如下注释,想请问一下FM当前版本是什么指的哪个版本,获取到无效值是必现的吗
问题现象:重启前光模块阈值信息正常,BMC重启后光模块所有阈值信息都为0xFFFF
分析:网卡走的是Hi182X协议,各项阈值信息是跟电流电压值一个命令获取的 命令没有报错而且电压电流值正常,看代码中有如下注释,想请问一下FM当前版本是什么指的哪个版本,获取到无效值是必现的吗
答案内容由AI生成,仅供参考:
当前 BMC 重启后光模块阈值显示为 0xFFFF 的现象,是由网卡侧 FM(Firmware Module)固件版本不支持阈值字段返回所导致的,属于已知限制情况,并非通信故障。
虽然主数据(电压、电流)可正常获取,但告警阈值因 FM 功能缺失而返回无效值 0xFFFF。此问题在当前 FM 版本下为 必现行为。
建议:
根据您提供的信息,针对“BMC 重启后 Hi182X 网卡光模块所有阈值信息均为 0xFFFF”的问题,结合代码注释和系统上下文,现进行如下综合分析:
0xFFFF(即无效值),但电压、电流等主数据仍能正常读取。在文件路径 src/luolib/hardware_config/Hi182X.lua 中,存在如下代码段与注释:
-- 以下各字段,FM当前版本还未支持获取,BMC获取到的是无效值属于正常现象
if r.device_working_param_voltage ~= 0xFFFF then
result.SupplyVoltage = convert_micro_to_milli(r.device_working_param_voltage)
end
if r.device_alarm_threshold_tx_power ~= 0xFFFF then
result.Power_TXUpperThresholdCritical = convert_micro_to_milli(
r.device_alarm_threshold_tx_power)
end
...
FM 指的是 Firmware of the Module(模块固件)
0xFFFF(默认无效值)。代码逻辑说明
0xFFFF 时才进行转换赋值。为何电压/电流正常而阈值异常?
0xFFFF。根据公开的南向驱动适配文档:
0xFFFF)。FM = Firmware Module,即网卡侧用于响应 BMC 查询请求的嵌入式固件模块。其版本决定了对带外管理功能的支持程度。
例如:
是的,在 FM 固件未支持阈值字段返回的版本中,该问题是必现的。
但需注意以下几点:
| 条件 | 是否出现 0xFFFF |
|---|---|
| FM 版本旧,未支持阈值返回 | |
| BMC 重启瞬间(FM 未就绪) | |
| 命令通信失败(I2C timeout) | |
| FM 已更新支持,但配置未生效 |
因此,若在多次重启后 始终无法获取阈值,基本可断定是 FM 固件功能缺失所致。
| 措施 | 说明 |
|---|---|
| 升级 Hi182X 网卡 FM 固件 | 联系硬件或驱动团队确认是否存在支持阈值返回的新版 FM 固件,并进行升级验证。 |
| 确认 BMC 获取时机是否过早 | 检查 BMC 是否在网卡 FM 完全初始化前发起查询,可通过延后读取或增加重试机制改善。 |
| 在 BMC 层设置默认阈值兜底 | 对于不支持动态获取的场景,可在 BMC 配置文件中预置标准光模块阈值(如 SFP28/LR4),提升可用性。 |
| 日志标记与告警优化 | 在 BMC 日志中明确标注“阈值不可用:FM 不支持”,避免误判为硬件故障。 |
Hi1822_NIC6_0v8 电压传感器触发告警的记录,说明对 Hi182x 系列传感器的监控已在实际部署中应用。当前 BMC 重启后光模块阈值显示为 0xFFFF 的现象,是由网卡侧 FM(Firmware Module)固件版本不支持阈值字段返回所导致的,属于已知限制情况,并非通信故障。
虽然主数据(电压、电流)可正常获取,但告警阈值因 FM 功能缺失而返回无效值 0xFFFF。此问题在当前 FM 版本下为 必现行为。
建议:
备注:未来可通过 Redfish 接口 /redfish/v1/Chassis/1/NetworkAdapters/NIC/Ports/1/Oem/Huawei/OpticalModule 查询实际状态,结合 net_card_info 文件验证数据一致性。
麻烦发一份一键日志收集辅助定位
可以提供下邮箱吗,通过邮箱发送日志