【问题现象一】:一张博通raid卡下挂60多个盘,power cycle 跑89次后,上电启动 7分钟后,pcie raid temp传感器显示为no reading。
1、app.log日志记录:storage 也有Raid芯片访问超时问题
2、查询hw_stream.log, 日志刷屏,具体为hwproxy error: work_objects.lua(59): chip plugin_request on the bus: Chip_RaidChip_0101010101 executed func_name:Hisport_16 times out
3、问题发生时间:8-3日 00:35~00:42
4、日志详见附件,txt文档【推荐后续可以上传压缩包】
【问题现象二】:长稳环境,一张博通raid卡下挂60多个盘,日志中记录raid卡通讯失败。
问题现象二应该和问题现象一本质原因是一样的,都是raid卡驱动访问raid卡芯片超时,是否链路过载,或者信号质量存在问题?
你好,能麻烦提供一下日志吗。麻烦发送一份一键收集日志到maoyuhao@huawei.com。我们收到后将尽快分析
通过日志分析,发现有大量Hisport 超时报错。与贴主确定需复现,确定是否有i2c报错
2025-08-05 22:57:49.017112 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip_0101010303 executed func name:Hisport 18 times out
2025-08-05 22:57:49.707555 hwproxy ERROR: chip.lua(613): chip: Chip RaidChip 0101010303, deal plugin request failed error:
./opt/bmc/lualib/hwproxy/plugins/sml/init.lua:229: [Storage]run cmd failed: 4296
2025-08-05 22:57:49.709098 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip 0101010303 executed func name:Hisport 18 times out
2025-08-05 22:57:49.963877 hwproxy ERROR: chip.lua(613): chip: Chip RaidChip 0101010303, deal plugin request failed error:
./opt/bmc/lualib/hwproxy/plugins/sml/init.lua:229: [Storage]run cmd failed: 4296
2025-08-05 22:57:49.964605 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip 0101010303 executed func name:Hisport 18 times out
2025-08-05 22:57:56.924924 hwproxy ERROR: chip.lua(613): chip: Chip RaidChip 0101010303, deal plugin request failed error:
./opt/bmc/lualib/hwproxy/plugins/sml/init.lua:229: [Storage]run cmd failed: 4296
2025-08-05 22:57:56.925677 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip 0101010303 executed func name:Hisport 18 times out
2025-08-05 22:58:28.740800 hwproxy ERROR: hw log.lua(70): chip: Chip UsbCc On 0101, bus: I2c 8, read failed: i2c.lua:115: response error, i2c read fail, ret: 5,
input:{"offsetWidth":1,"addrWidth":1,"addr":66,"mask":4294967295,"rw type":1,"type":0,"requestor":"Scanner CcChipOnAttachStatus 0101","is trace":false,"offset":18,"len":
1,"name":"Chip UsbCc On 0101","has error":false}
问题描述1: 双RAID卡60盘场景下,伙伴反复上下电发现第2张RAID卡通信失败
问题分析:
(1)结合伙伴代码分析,并非第2张RAID卡通信失败,而且伙伴代码写了循环需要等待第一张raid卡ready之后才启动第2张raid卡的任务,又因为上下电周期太短,导致第一张卡都没有完全启动就又开始复位,从而看到的现象就是第2张raid卡一直未获取到任何信息;
伙伴代码,这里的循环等待将导致第2张raid的启动任务被阻塞:
(2)可以从操作日志可以看出复位间隔时间仅3分半左右,此时第一张raid卡可能都还没有启动完成,因此这样的复位周期是不合理的
措施:让伙伴将while循环删除,并将复位周期增加到10分钟,脚本跑复位后两张raid卡获取信息正常
问题描述2: 单RAID卡60盘场景下,伙伴反复上下电会出现硬盘获取信息慢
问题分析:硬盘任务太多导致i2c链路传输压力大,伙伴已将硬盘信息获取周期修改为1分钟,验证180次上下电正常,问题已解决
此问题通过PAE与伙伴对齐记录:
此问题在伙伴场景下已解决,可以关闭