【问题求助】Raid卡通信失败 & 上电后7分钟内Raid卡和Raid卡下的盘无温感

zhaower · 2025 年8 月 6 日 03:24

【问题现象一】：一张博通raid卡下挂60多个盘，power cycle 跑89次后，上电启动 7分钟后，pcie raid temp传感器显示为no reading。
1、app.log日志记录：storage 也有Raid芯片访问超时问题
2、查询hw_stream.log, 日志刷屏，具体为hwproxy error: work_objects.lua(59): chip plugin_request on the bus: Chip_RaidChip_0101010101 executed func_name:Hisport_16 times out
3、问题发生时间：8-3日 00:35~00:42
4、日志详见附件，txt文档【推荐后续可以上传压缩包】
【问题现象二】：长稳环境，一张博通raid卡下挂60多个盘，日志中记录raid卡通讯失败。
问题现象二应该和问题现象一本质原因是一样的，都是raid卡驱动访问raid卡芯片超时，是否链路过载，或者信号质量存在问题？

mao_0v0_q7rci · 2025 年8 月 8 日 01:07

你好，能麻烦提供一下日志吗。麻烦发送一份一键收集日志到maoyuhao@huawei.com。我们收到后将尽快分析

mao_0v0_q7rci · 2025 年8 月 21 日 03:20

通过日志分析，发现有大量Hisport 超时报错。与贴主确定需复现，确定是否有i2c报错

2025-08-05 22:57:49.017112 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip_0101010303 executed func name:Hisport 18 times out
2025-08-05 22:57:49.707555 hwproxy ERROR: chip.lua(613): chip: Chip RaidChip 0101010303, deal plugin request failed error:
./opt/bmc/lualib/hwproxy/plugins/sml/init.lua:229: [Storage]run cmd failed: 4296
2025-08-05 22:57:49.709098 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip 0101010303 executed func name:Hisport 18 times out
2025-08-05 22:57:49.963877 hwproxy ERROR: chip.lua(613): chip: Chip RaidChip 0101010303, deal plugin request failed error:
./opt/bmc/lualib/hwproxy/plugins/sml/init.lua:229: [Storage]run cmd failed: 4296
2025-08-05 22:57:49.964605 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip 0101010303	executed func name:Hisport 18 times out
2025-08-05 22:57:56.924924 hwproxy ERROR: chip.lua(613): chip: Chip RaidChip 0101010303, deal plugin request failed error:
./opt/bmc/lualib/hwproxy/plugins/sml/init.lua:229: [Storage]run cmd failed: 4296
2025-08-05 22:57:56.925677 hwproxy ERROR: work objects.lua(63): chip: plugin request on the bus: Chip RaidChip 0101010303 executed func name:Hisport 18 times out
2025-08-05 22:58:28.740800 hwproxy ERROR: hw log.lua(70): chip: Chip UsbCc On 0101, bus: I2c 8, read failed: i2c.lua:115: response error, i2c read fail, ret: 5,
input:{"offsetWidth":1,"addrWidth":1,"addr":66,"mask":4294967295,"rw type":1,"type":0,"requestor":"Scanner CcChipOnAttachStatus 0101","is trace":false,"offset":18,"len":
1,"name":"Chip UsbCc On 0101","has error":false}

yelmh_kno07 · 2025 年10 月 18 日 01:15

问题描述1：双RAID卡60盘场景下，伙伴反复上下电发现第2张RAID卡通信失败

问题分析：

（1）结合伙伴代码分析，并非第2张RAID卡通信失败，而且伙伴代码写了循环需要等待第一张raid卡ready之后才启动第2张raid卡的任务，又因为上下电周期太短，导致第一张卡都没有完全启动就又开始复位，从而看到的现象就是第2张raid卡一直未获取到任何信息；

伙伴代码，这里的循环等待将导致第2张raid的启动任务被阻塞：

（2）可以从操作日志可以看出复位间隔时间仅3分半左右，此时第一张raid卡可能都还没有启动完成，因此这样的复位周期是不合理的

措施：让伙伴将while循环删除，并将复位周期增加到10分钟，脚本跑复位后两张raid卡获取信息正常

问题描述2：单RAID卡60盘场景下，伙伴反复上下电会出现硬盘获取信息慢

问题分析：硬盘任务太多导致i2c链路传输压力大，伙伴已将硬盘信息获取周期修改为1分钟，验证180次上下电正常，问题已解决

此问题通过PAE与伙伴对齐记录：

此问题在伙伴场景下已解决，可以关闭

话题		回复	浏览量
偶现raid卡 9560-8i通信异常触发告警，一段时间后又消除告警交流互助区提问求助	8	178	2026 年1 月 20 日
RAID卡的I2c概率性访问超时交流互助区提问求助	11	205	2026 年2 月 25 日
DC稳定性测试中概率出现无法获取Raid卡温度和Disks Temp温度、无法获取网卡温度交流互助区提问求助	10	164	2026 年4 月 14 日
社区版本25.03 920B多台环境多次短暂出现9560-8i RAID卡告警与BMC通信丢失交流互助区提问求助	2	58	2026 年5 月 18 日
双SP686C RAID环境长时间AC掉电出现PCIe RAID6Temp传感器获取信息异常交流互助区提问求助	7	93	2026 年7 月 28 日

【问题求助】Raid卡通信失败 & 上电后7分钟内Raid卡和Raid卡下的盘无温感

相关话题