AC测试时出现 web无法登陆,ssh登陆正常

答案内容由AI生成,仅供参考:

AC测试期间BMC Web无法登录、SSH正常问题分析

:pushpin: 问题概述

在执行AC循环(ACcycle)测试过程中,BMC Web界面出现“拒绝连接”故障,无法登录;但SSH连接功能正常。通过SSH登录系统并重新更新SSL证书后,Web登录功能恢复且无需重启BMC。

该问题在进行约30次AC循环后复现一次,具有一定的偶发性,但对系统长期稳定性构成影响。


:magnifying_glass_tilted_left: 故障现象详情

项目 内容
故障描述 ACcycle测试中,BMC Web服务拒绝连接,但SSH可正常访问
软件版本 openUBMC 2512 基线
预期结果 ACcycle后BMC初始化完成,Web可正常访问
实际结果 多次AC后Web无法访问,表现为“连接被拒绝”;SSH始终可用
临时解决方案 通过SSH登录后更新SSL证书,Web即刻恢复

:puzzle_piece: 根本原因分析

:magnifying_glass_tilted_right: 日志关键错误信息

failed to start certificate in init stage, err: error loading module ‘rtos_security_config.domain.banner_config’ 
from file ‘/opt/bmc/apps/certificate/lualib/rtos_security_config/domain/banner_config.lua’: 
...lua:1: unexpected symbol

该日志表明:

  • certificate组件在初始化阶段失败;
  • Lua脚本加载异常:banner_config.lua 文件解析错误,提示“unexpected symbol”,说明文件内容不合法或被损坏;
  • 错误发生在RTOS安全配置初始化流程中,影响了整个证书服务的启动。

由于证书服务未能正常加载,导致依赖证书的Nginx/Web服务无法启动,从而造成Web访问“连接被拒绝”。


:white_check_mark: 是否涉及 certificate 闭源组件?

结论:是,本次故障与 certificate 组件直接相关,且极可能涉及其闭源部分。

分析依据如下:

  1. certificate 组件职责核心性

    • certificate 组件负责管理BMC系统中的所有SSL/TLS证书,包括:
      • SSL证书的存储(/data/trust/cert/ssl/SSL_1.crt
      • 与数据库(SQLite)中的持久化数据同步
      • 启动时向Nginx等服务提供证书数据
    • 若此组件启动失败,将直接导致Web服务无证书可用,Nginx无法加载,最终表现为Web无法访问。
  2. 错误发生在组件初始化阶段

    • 错误堆栈显示,失败位于 certificate_app.luaold_init 阶段,属于组件启动的核心路径。
    • rtos_security_config_app.lua 是RTX安全架构的一部分,通常这部分代码由供应商提供二进制或加密Lua模块(即闭源组件),用于确保安全性。
  3. Lua模块加载失败暗示文件完整性问题

    • 报错“unexpected symbol”常见于:
      • 文件内容损坏(如AC过程中落盘中断)
      • 加密/解密失败导致Lua源码解压出错
      • 闭源模块签名验证失败或动态加载失败
    • 结合AC循环这一触发条件,推测该问题可能源于闭源组件在断电场景下加载不稳定或持久化机制存在缺陷
  4. 修复方式佐证问题根源

    • 手动更新证书后功能恢复,说明:
      • Web服务本身无损;
      • Nginx依赖证书数据重建;
      • certificate 组件在运行时能正常工作,但冷启动或AC恢复时初始化失败
    • 此类“运行时可恢复、冷启出问题”的模式常见于闭源配置加载失败场景。

:hammer_and_wrench: 排查与解决方案建议

:play_button: 确认SSL证书状态(SSH下执行)

# 查看SSL证书文件是否存在
ls -lh /data/trust/cert/ssl/SSL_1.crt

# 查询数据库中证书信息
/usr/sbin/sqlite3 /data/trust/persistence/per_poweroff.db \
"SELECT * FROM persist_table WHERE table_name = 't_certificate';"

# 检查certificate组件日志
cat /var/log/app.log | grep certificate

:play_button: 检查nginx是否运行

netstat -ntlpa | grep :80
ps | grep nginx

若nginx未运行,而证书文件缺失或certificate组件未就绪,则进一步确认问题链:

AC断电certificate组件初始化失败SSL证书未加载Nginx未启动Web拒绝连接


:books: 参考资料支持

  1. 来自文档id:1《openUBMC300 V3问题定位分享》

    “目前遇到很多web打不开的问题,主要是ssl证书获取失败,导致Nginx未加载。”
    提供了标准定位流程,强调检查 /data/trust/cert/ssl/SSL_1.crt 和数据库条目。

  2. 来自文档id:6《证书业务介绍》

    certificate 组件负责为Web提供SSL证书,缺失会导致nginx无法加载,进而Web访问失败。
    并指出:ipmcget -t certificate -d info 可用于查询证书信息。

  3. 知识图谱关联信息

    • BMC Web Interface 的可用性依赖于 Web Access
    • Web Access 的前提条件为 SSL证书成功导入并加载
    • SSH Access 不依赖证书组件,因此仍可正常使用

:white_check_mark: 建议对策

动作 说明
1. 修复当前环境 使用已知有效证书重新导入:
ipmcset -t certificate -d import ...
2. 添加启动检测脚本 在AC后自动检测certificate服务状态和SSL文件完整性
3. 持久化机制加固 确保关键Lua配置文件(如banner_config.lua)在AC过程中不会部分写入或损坏
4. 升级或替换闭源组件 联系openUBMC社区或供应商确认certificate组件是否存在已知AC兼容性问题,是否存在更新版本
5. 增加日志追踪 rtos_security_config_app.lua中增加更细粒度的日志输出,便于定位模块加载失败的具体原因

:white_check_mark: 总结

项目 回答
是否涉及 certificate 组件? :white_check_mark: 是,核心组件
是否涉及闭源部分? :white_check_mark: 极高可能性,因其初始化过程包含加密/受保护Lua模块加载
故障本质原因 AC断电导致 certificate 组件初始化失败,SSL证书未加载,Nginx未启动
为何SSH正常? SSH不依赖Web和SSL证书服务
推荐最终解决方案 加固certificate组件的持久化与恢复机制,升级至稳定版本,避免AC导致服务中断

:pushpin: 建议提交此问题至 openUBMC 社区论坛(如 https://discuss.openubmc.cn)并引用相关日志,寻求 certificate 组件维护方的技术支持

相关链接:

  1. 【用户管理】【登录】AC长稳测试,ssh登录BMC概率登录失败
  2. hi1711 bmc恢复出厂固件
  3. AC后BMC web连接不上,bmc reset可恢复
  4. 自签名的openubmc版本不保留配置升级后,web页面提示拒绝连接
  5. openUBMC300 V3问题定位分享 | 文档中心 | openUBMC