带内跑nvme盘link reset后,出现0x02000017和0x02000007告警

【现象】带内安装iBMA后,跑link reset脚本,带外系统事件中Asserted两告警,随后Desserted

【初步分析1】

0x02000017告警源:Scanner_Temp和Scanner_SSD_Enabled

出现问题时:Scanner_Temp丢失(只有3个),实际插入8个nvme盘。另外,web上对应丢失Scanner_Temp的nvme盘温度读取为0

【诉求1】有无方法定位Scanner_Temp丢失的原因?

【初步分析2】

0x02000007告警源:CapacityError和Failure

Failure来源于SSDChip读取有关(已经定位到具体代码段,正在加打印分析其值改变原因),CapacityError属性在现有代码未找到

【诉求2】Nvme Drive类中CapacityError属性是如何获取的?其值是如何轮询更新的?

【补充】如需 一键日志和脚本,请提供接收邮箱

1、当前支持动态加载不同nvme盘厂商的调速策略,具体可以参考支持nvme盘根据厂商动态加载cooling policy,可以排查是否环境上的盘未配置对应nvme厂商的调速策略sr文件。
2、CapacityError属性暂不会更新,数值一直会是默认值0。0x02000007告警只需关注Failure属性,具体可参考开源组件storage的函数get_nvme_failure。

硬盘的link reset吗?对于这个告警,BMC应该是结合Bios状态和寄存器状态一起判断,断链场景那几个寄存器就是会变异常;此时Bios也是正常运行状态,硬盘也断链了,我理解就是要有Failure告警的啊

1 个赞

你好,您的意思是Scanner_Temp对象创建与nvme 调速加载有关吗?当时在出现问题时,同一级的SR文件中(14140224_PROTOCOL_0.sr),只有这个Scanner_Temp部分盘没有创建,其他Scanner都加创建生效了

Chip_Virtual_SSD,Chip_SSD,Chip_Temp这三个有加载对应的对象吗?如果是识别成功的nvme盘,都会加载对应的地址芯片。或者提供一下当时的一键收集日志呢

有加载,能提供一下接收日志邮箱吗,或者我发给PAE,然后让PAE装给您?

是这个逻辑,厂商反馈是带内如果盘跑丢了(带内识别不到盘)会产生这个Failure告警,目前我们自己加打印在分析中,还在跑复现

邮件可以发送至maoyuhao@huawei.com

你好,日志昨晚已发出,请查收

从日志分析,8个盘都加载了对应的协议sr。


有5个确实加载失败,原因是访问对应的chip失败。建议确定这几个盘是否正常,且固件是否支持nvme mi协议的vpd区域的相关地址.

2025-10-21 14:50:15.732630 hwproxy ERROR: object_manage.lua(205): AddObject Scanner_Temp_01010C0301 failed, life_cycle_id:1, error:./opt/bmc/libmc/lualib/mc/context.lua:185: ./opt/bmc/libmc/lualib/sd_bus/object.lua:712: chip: Chip_Temp_01010C0301, bus: I2c_6, read failed: base.lua:148: response error, chip internal error, SMC completion code: 4
2025-10-21 14:50:25.500883 hwproxy ERROR: object_manage.lua(205): AddObject Scanner_Temp_01010C0501 failed, life_cycle_id:1, error:./opt/bmc/libmc/lualib/mc/context.lua:185: ./opt/bmc/libmc/lualib/sd_bus/object.lua:712: chip: Chip_Temp_01010C0501, bus: I2c_6, read failed: base.lua:148: response error, chip internal error, SMC completion code: 4
2025-10-21 14:50:35.990406 hwproxy ERROR: object_manage.lua(205): AddObject Scanner_Temp_01010C0601 failed, life_cycle_id:1, error:./opt/bmc/libmc/lualib/mc/context.lua:185: ./opt/bmc/libmc/lualib/sd_bus/object.lua:712: chip: Chip_Temp_01010C0601, bus: I2c_6, read failed: base.lua:148: response error, chip internal error, SMC completion code: 4
2025-10-21 14:50:39.847767 hwproxy ERROR: object_manage.lua(205): AddObject Scanner_Temp_01010C0701 failed, life_cycle_id:1, error:./opt/bmc/libmc/lualib/mc/context.lua:185: ./opt/bmc/libmc/lualib/sd_bus/object.lua:712: chip: Chip_Temp_01010C0701, bus: I2c_6, read failed: base.lua:148: response error, chip internal error, SMC completion code: 4
2025-10-21 14:50:46.605703 hwproxy ERROR: object_manage.lua(205): AddObject Scanner_Temp_01010C0801 failed, life_cycle_id:1, error:./opt/bmc/libmc/lualib/mc/context.lua:185: ./opt/bmc/libmc/lualib/sd_bus/object.lua:712: chip: Chip_Temp_01010C0801, bus: I2c_6, read failed: base.lua:148: response error, chip internal error, SMC completion code: 4

你好,这个“盘是否正常”,可以从哪几个维度评估?

当前情况:这个8个盘都是大普微同型号的盘,都支持nvme mi协议,一般正常情况下都能读到VPD区域的内容

1、建议先换盘验证,是否问题跟着盘在走,如果是再分析盘的问题;
2、当前配置固定是读0xD5的地址作为温度芯片的地址,当前报错应该就是访问对应地址报错了,确定异常的几个盘是否把这个地址作为温度芯片的地址;