问题描述
我们在开发过程中,用到了sw板,web上产生14个获取自描述信息失败0x1A000055告警
环境信息
重现步骤
- 必现
期望结果
如何解决web告警,告警原理是什么
尝试过的解决方案
我们在PSR中配置了UnitConfiguration_IEU1,其中SrcPortName和TargetPortID用到了14个,我们发现web上0x1A000055也对应14个
目前排查到这个告警事件定义来源于基础板的CSR,事件数据源来源于Hisport_I2C下的Connector,以Connector_A1a为例,发现Connector_A1a未正常加载,id为空,LoadStatus为1导致产生告警
分析结论
Connector_A1a异常,是不是某个部件刷写有关?
Connector_A1a作用是什么,与riser如何关联?与PSR定义的线缆白名单有什么联系?
YMQMKK
(wuzhou-xiaokaili)
3
A1a和A1c是基础板上的一个UBCDD端口,Connector_A1a的IdentifyMode为3,作用是可以直接在A1a这个端口接入如riser,硬盘背板等可以通过天池加载的板卡,但如果A1a是通过线缆连接SW板,需要确认SW板是否是通过hisport进行天池加载的,如果不是就会告警BMC.AccessCSRFailure(对应告警Event_CSRFailureMntr_A1a)。
一般SW板会连接多个基础板上的UBC&UBCDD端口,也会有单独连接CPLD,EEPROM的iic通道,这部分信息需要与硬件对齐。
PSR主要是定义了基础板与riser,硬盘背板,sw板的线缆连接关系。
我们是通过真实I2C通道与sw通信,没有使用hisport。另外我们对比华为riser排查,华为riser三个portid也有两个port不在位,一个在位,并没有产生这个0x1A000055告警;我们sw板用了14个portid,基础板CPLD都上报了在位信息
目前对比,发现我们不同点在LoadStatus和Presence两个属性上
YMQMKK
(wuzhou-xiaokaili)
6
我推测是以下原因导致的:
1.华为的riser使用的是hisport与基础板进行通信的,并没有使用BMC直出的iic,如下图是riser内部iic拓扑的配置,具体是hisport下挂了PCA9545,PCA9545下又挂了Chip_MCU1,Chip_MCU1下的IIC最终挂了Eeprom_IEU,这个Eeprom_IEU就是存放riser卡CSR的地方,Connector_B3a下挂的hisport应该就是与连接riser的hisport,能够正常通过天池自发现加载,就不会出现0x1A000055告警。Connector_B4a和B3c应该只是提供高速资源能力,riser没有用到对应的hisport资源,所以也不会有告警。
你们的sw与BMC是通过直出的iic通信的,并且应该是把A1a和A1c通过线缆连接到了交换板,所以connector_a1a会被置为在位,但是交换板的eeprom是挂在bmc直出的iic下,所以connector_a1a下挂的hisport扫描不到交换板的eeprom,导致天池加载失败,所以会产生0x1A000055告警。
解决方法可以是删除connector_a1a和对应的Event_CSRFailureMntr_A1a告警定义,然后新增connector_ieu和对应的Event_CSRFailureMntr告警。