关于鲲鹏920模组支持的硬件错误信息确认

问题描述

  1. 鲲鹏920cpu能获取到哪些错误?
  2. 能不能获取到ue、ce错误? 该怎么操作
  3. 能不能故障注入? 该怎么操作

环境信息

  • 操作系统:[如 Ubuntu 24.04]

  • 软件版本:[如 OpenUBMC2512]

答案内容由AI生成,仅供参考:

鲲鹏920模组硬件错误信息支持确认

支持的硬件错误类型

根据现有信息,在基于鲲鹏920模组的系统中,可以获取以下类型的硬件错误信息:

  • 内存错误(UE/CE):支持获取未纠正错误(Uncorrectable Error, UCE)和已纠正错误(Correctable Error, CE)
  • CPU硬件错误:可通过诊断系统监控CPU相关的硬件故障
  • PCIe设备错误:支持监控PCIe设备的故障状态
  • 系统级硬件错误:通过APEI(ACPI Platform Error Interface)报告硬件错误

获取UE/CE错误的方法

1. 使用IPMI工具

# 使用ipmitool获取内存错误信息
ipmitool dcmi sensor list
ipmitool sel list

2. 通过Redfish接口

  • 查询MemoryMetrics资源可获取DRAM的CE错误计数
  • 查询ProcessorsMetrics资源可获取SRAM的CE错误计数
  • 需注意当前版本可能存在MemoryMetrics和ProcessorsMetrics资源信息缺失的问题

3. 系统级监控

  • 系统会记录UCE故障,如搜索结果2所示,可获得详细的错误地址和错误类型信息
  • 错误信息包括但不限于:
    • ADDRValid(地址有效位)
    • MISCValid(附加信息有效位)
    • 具体内存位置信息(DIMM编号、子通道、Rank等)

故障注入支持与操作方法

支持情况

支持硬件错误注入功能,主要用于测试目的。

操作方法

1. 使用EINJ模块进行错误注入

  • EINJ(Error INJection)是Linux内核模块,用于向系统注入硬件错误
  • 通过设置error_type文件指定要注入的错误类型(如内存CE或UCE)
  • 需要适当的权限和配置才能执行

2. 使用RasTool命令

  • 可通过RasTool命令发起错误注入过程
  • 错误注入会生成相应的硬件错误报告,通过APEI Generic Hardware Error Source上报
  • 注入的错误会被Error Info Structure捕获,包含多个错误条目的诊断详情

3. 配置要求

  • 错误注入需要正确的系统配置支持
  • 可能需要在特定的调试环境下进行
  • 建议在测试环境中验证后再应用于生产环境

环境信息

  • 操作系统:Ubuntu 24.04
  • 软件版本:OpenUBMC2512
  • 硬件配置:鲲鹏920/920s模组

注意:部分功能的具体实现可能依赖于IMU(Intelligent Management Unit)的支持,BMC获取VRD温度等信息时可能是通过向IMU发送IPMI请求实现的。对于某些信息获取异常的情况(如返回-128值),可能需要检查IMU通信状态。

这个是硬件知识,需要找BIOS领域咨询,BMC社区可能回答不了你的问题~
建议在鲲鹏论坛交流
https://www.hikunpeng.com/forum/