问题描述
1 openUBMC支持哪些高温保护机制避免核心器件因高温发生损坏?
2 如何将保护机制应用起来
答案内容由AI生成,仅供参考:
| 保护机制 | 触发条件 | 响应动作 | 可配置性 |
|---|---|---|---|
| CoreDisableTemp | CPU核心温度过高 | 关闭核心 | |
| MaxAllowedTemperatureCelsius | 达到最大允许温度 | 风扇100% PWM、告警 | |
| ProcessorHot | 硬件检测到核心过热 | 触发ThermalTrip | |
| ThermalTrip | 严重过热事件 | 自动下电并延时恢复 | |
| OverTemperature | PSU/FRU过温 | 报警、记录事件 | |
| SysSSDsMaxTemperature | SSD温度 > 80°C | 启动冷却策略 |
建议实践:
- 启用
ThermalTrip并合理设置TimeDelaySeconds避免频繁重启。- 结合
MaxAllowedTemperatureCelsius和风扇策略实现主动温控。- 利用Redfish API 实现远程高温策略管理,提升运维效率。
如需进一步配置指导,可参考以下文档:
openUBMC系统提供了多层次的高温保护机制,以确保核心器件在异常温升情况下能够及时响应,防止硬件损坏。以下是基于现有信息整理的高温保护机制及其应用方式。
CoreDisableTemp设定值时,系统将自动关闭对应的核心。CoreDisablePowerOffTime参数使用,在电源关闭期间若温度持续过高,可触发延时关机流程。CoreDisableTemp → SOC:控制CPU核心的高温关闭逻辑
CoreDisableTemp ↔ CoreDisablePowerOffTime:协同决定是否执行断电保护
Scanner_Cpu1ProcessorHotAccessor 获取状态。bmc.kepler.Systems.Processor 接口监控。描述:当CPU发生严重过热时,硬件自动触发ThermalTrip信号,导致系统主动下电,防止永久性损伤。
关键属性(来自CSR配置):
| 属性 | 类型 | 默认值 | 说明 |
|---|---|---|---|
FruID |
U8 | 0 | 关联FRU单元 |
GetThermTrip |
表达式 | <=/Scanner_Cpu1ThermalTripAccessor.Value |
获取过热信号 |
Actions |
枚举 | 上电 | 下电后是否自动恢复上电 |
TimeDelaySeconds |
U32 | 300 | 自动上电延迟时间(秒) |
IsValid |
布尔 | true | 是否启用该策略 |
支持的Redfish接口扩展:
PowerOnAfterCpuThermalTrip:布尔型,控制是否在高温下电后自动重启。DelaySecondsAfterCpuThermalTrip:整数型,设置恢复上电的等待时间。应用场景:
0 表示无故障,1 表示发生过温故障。CoolingConfig_HighPerformance 配置文件中的一个关键参数。ThermTrip类。IsValid = true以启用过热保护。Actions和TimeDelaySeconds控制下电后的恢复行为。/bmc/kepler/Systems/:SystemsId/Fructrl/:FruId
{
"Oem": {
"Huawei": {
"PowerOnAfterCpuThermalTrip": true,
"DelaySecondsAfterCpuThermalTrip": 300
}
}
}
PowerMgmt权限。bmc.kepler.Systems.ThermalTripAction(y型):设定下电后动作(默认为上电)TimeDelaySeconds(u型):设置延时秒数,默认300秒thermal_mgmt 服务会记录以下信息:
journalctl -u thermal_mgmt
或通过 Log Query 功能从openUBMC BMC中提取。coolingRequirement_1_41 控制基于 SysSSDsMaxTemperature 的风扇响应。CoolingRequirement_1_81 结合 NPU_1.AiCoreTemp 监控Atlas 300I A2芯片温度并动态调节散热。| 保护机制 | 触发条件 | 响应动作 | 可配置性 |
|---|---|---|---|
| CoreDisableTemp | CPU核心温度过高 | 关闭核心 | |
| MaxAllowedTemperatureCelsius | 达到最大允许温度 | 风扇100% PWM、告警 | |
| ProcessorHot | 硬件检测到核心过热 | 触发ThermalTrip | |
| ThermalTrip | 严重过热事件 | 自动下电并延时恢复 | |
| OverTemperature | PSU/FRU过温 | 报警、记录事件 | |
| SysSSDsMaxTemperature | SSD温度 > 80°C | 启动冷却策略 |
建议实践:
- 启用
ThermalTrip并合理设置TimeDelaySeconds避免频繁重启。- 结合
MaxAllowedTemperatureCelsius和风扇策略实现主动温控。- 利用Redfish API 实现远程高温策略管理,提升运维效率。
如需进一步配置指导,可参考以下文档:
1、openUBMC支持哪些高温保护机制避免核心器件因高温发生损坏? — 超温下电一般都是硬件提供的能力,BMC侧当前没有主动基于某个信号去给业务做下电的
2、确实要做也可以,硬件提供保护信号,触发了后由BMC自动下电或者触发异常调速、告警等机制