关于“当前告警”与“传感器事件”、“系统事件”显示机制的疑问

【代码版本】25.03
【bingo版本】0.5.317
【执行操作】使用ipmi命令修改传感器轻微上门限阈值,触发传感器告警

我在使用 openUBMC 的过程中,遇到一些关于告警分类的问题,想请教大家。

目前 openUBMC 系统中有三个相关页面:“当前告警”、“系统事件”和“传感器事件”。但在实际使用中,我发现这三者之间的关系不太清晰。例如,一些温度相关的告警(如 CPU 温度告警、1711 温度告警)在“传感器事件”中是可以看到的,但却不会出现在“当前告警”中,iBMC中这些告警都会在“当前告警”中显示;而另一些温度告警,比如 PCIe 卡温度异常,则可以在“系统事件”和“当前告警”中都正常显示。

这让我有些困惑:同样是温度类的异常告警,有些属于“系统事件”,有些则归为“传感器事件”;更重要的是,并不是所有“传感器事件”中的告警都会被列入“当前告警”。

想请教大家几个问题:

  1. “当前告警”、“系统事件”、“传感器事件”这三者之间的区别和关系是什么?
  2. 是什么机制或标准决定了某个告警是否出现在“当前告警”中?
  3. 类似 CPU 温度告警为何不会显示在“当前告警”,而 PCIe 卡温度异常却可以显示?

如果有了解这块机制的朋友,希望能帮忙解答一下,非常感谢!

精细化告警事件与传感器事件

首先需要明确:当前openUBMC实现了两套事件机制,一套为精细化告警机制,一套为传感器事件机制,其中传感器事件遵循的是IPMI标准协议规范。从根本上讲,这实际是两套完全独立不互通的事件功能。

当前告警、系统事件与传感器事件的区别与关系

1、当前告警(alarm):归属于精细化告警事件机制,是处于Assert状态且事件等级高于normal的事件列表,这类事件我们通常称之为告警;
2、系统事件(event):归属于精细化告警事件机制,为所有精细化告警事件的历史列表,包含生成过的Assert、Deassert状态的所有等级的精细化告警事件。在当前告警中查到的一定能在系统事件中查到。
3、传感器事件(sel):归属于传感器事件机制,为所有传感器事件的历史记录,包含生成过的Assert、Deassert状态的所有等级的传感器事件。

精细化告警事件与传感器事件分别是怎么触发产生的

不管是精细化告警事件还是传感器事件,实际都是由csr配置的。
1、精细化告警事件:配置Event、PowerEvent对象,当达到事件触发条件就会生成告警或事件。如问题所说, PCIe 卡温度异常,则可以在“系统事件”和“当前告警”中都正常显示,一定是配置了相应的Event对象。
2、传感器事件:当前iBMC实现了两类传感器事件,分别对应两类传感器。
(1)门限传感器(ThresholdSensor):传感器对象本身支持了6个门限属性,配置该类传感器对象时若配置了门限值,当传感器值超出门限值时,会产生传感器事件;
(2)离散传感器(DiscreteSensor):对应该传感器的事件称为离散事件,离散事件还需要额外配置离散事件对象(DiscreteEvent),同样达到触发条件时会生成传感器事件。
有的温度事件能在“传感器事件”中是可以看到的,但却不会出现在“当前告警”中,那么一定是仅配置了传感器及传感器事件对象,而没有配置Event对象。

总结: 精细化告警事件与传感器事件为两套机制,不可混淆,且事件能产生一定是因为有相应的配置。

1 个赞

感谢您的耐心解答,让我对“当前告警”、“系统事件”、“传感器事件”三者之间的关系有了更加清晰的理解。

不过目前仍有一个疑问想请教一下:

在 openUBMC 中,是否存在一个明确的标准或配置约定,决定哪些传感器事件会同步出现在“当前告警”中?我目前测试发现,例如 CPU 温度或 1711 等温度传感器在温度超阈值时,仅会记录在“传感器事件”中,而不会显示在“当前告警”中。但在 v2 版本的 iBMC 上,同类告警是会出现在“当前告警”中的。

因此想进一步确认:

  • 是否在 openUBMC 中默认将温度类传感器事件仅归为“传感器事件”显示?
  • 对于“当前告警”所展示的内容,是依赖系统级的策略统一定义,还是允许开发/项目按需选择哪些事件上报为告警?

没有默认温度类归为”传感器事件“显示,实际就没有这种配置规则,精细化告警事件还是传感器事件都是根据开发者或项目的需求去配置的,一切都依赖自身需求去配置,且自由度很高。


另外我注意到你原始问题中提到了你的操作是”使用ipmi命令修改传感器轻微上门限阈值,触发传感器告警“,需要注意下event跟sensor对象配置理论上是各自独立的,修改传感器的阈值能产生传感器事件,但理论上event是无法感知到这个变化,即使有对应的精细化告警配置,也不会相应产生告警,需要注意这个关系,不要产生混淆。

1 个赞