问题描述
power cycle时出现BBU温度告警,用的是9560-16i Raid卡,刚下电时出现温度超阈值告警,直到上电后告警才解除
环境信息
-
操作系统:openEuler
-
软件版本:2512
-
硬件配置:9560-16i
重现步骤
-
[第一步] power cycle
-
[第二步] 查看是否产生告警
期望结果
OS下电时不产生告警
power cycle时出现BBU温度告警,用的是9560-16i Raid卡,刚下电时出现温度超阈值告警,直到上电后告警才解除
操作系统:openEuler
软件版本:2512
硬件配置:9560-16i
[第一步] power cycle
[第二步] 查看是否产生告警
OS下电时不产生告警
答案内容由AI生成,仅供参考:
9560-16i RAID卡在Power Cycle期间触发BBU温度告警的主要原因是:下电瞬间RAID卡可能返回异常温度值(如254),BMC未能识别此为无效读数且未对关机场景进行告警抑制。
254/255 异常值;ACPI S5 时暂停相关传感器监控;
最终目标:实现 OS 下电时不产生无意义的 BBU 温度告警,提升系统日志可信度与运维效率。
在对配置了 9560-16i RAID卡 的系统执行 Power Cycle(电源循环)操作时,系统会在下电阶段出现 BBU(Battery Backup Unit)温度超阈值告警,具体表现为:
PCIe6 BBU Temp(PCIe插槽6的BBU温度)用户期望在操作系统下电过程中不产生此类温度告警。
ThresholdSensor_PCIeBBUTempmedian_s5 中值滤波算法对温度数据进行处理,以避免瞬时抖动引发误告警(见文档《硬件监控防抖机制参考》和《CSR硬件监控防抖机制》)根据上下文信息及类似案例(如AC测试中9560-16i高温告警问题),可能的原因包括:
254 是典型的传感器通信失败或无效读数标志(接近最大值255)。254 这类异常温度值,BMC误判为“高温”而触发告警。
PCIe6 Card BBU - Presence Detected -> Deasserted(存在变为未检测)
ACPI S5 状态(Soft-off)时,BMC应识别系统已关机,并暂停部分传感器监控或抑制临时告警。ACPI S4/S5 状态(Soft-off)前后,临时屏蔽BBU温度告警。ACPI State → S4/S5: soft-off,可用于作为抑制条件。median_s5 防抖,但对于突发 254 类异常值仍可能穿透。expr(($1 < 254) ? $1 : invalid)
或者将原始表达式从:expr(($1 < 255) ? $1 : 0)
修改为:expr(($1 < 254) ? $1 : 0)
以过滤掉接近上限的无效值。| 步骤 | 操作 | 预期结果 |
|---|---|---|
| 1 | 修改BMC配置,抑制S5状态下的BBU温度告警 | Power Cycle时不出现BBU高温告警 |
| 2 | 注入异常温度值 254 测试 |
不触发告警或标记为“无效读数” |
| 3 | 连续执行10次Power Cycle | 告警不再重复出现 |
| 4 | 上电后检查RAID卡与BBU状态 | 正常识别、无残留告警 |
9560-16i RAID卡在Power Cycle期间触发BBU温度告警的主要原因是:下电瞬间RAID卡可能返回异常温度值(如254),BMC未能识别此为无效读数且未对关机场景进行告警抑制。
254/255 异常值;ACPI S5 时暂停相关传感器监控;
最终目标:实现 OS 下电时不产生无意义的 BBU 温度告警,提升系统日志可信度与运维效率。
csr里看了下 bbu温度传感器的Reading和ReadingStatus有时序问题,Reading值判断下,如果是0x7ffe把值变为20