包含标签:CNA 的文章
  • CNA节点管理域CPU占用率超过阈值

    问题描述 CNA节点管理域CPU占用率超过阈值告警,该节点只有2个业务虚拟机,迁移走后,管理域CPU占用率仍然没有得到释放。 告警信息 CNA节点管理域CPU占用率超过阈值告警。 处理过程 FC Portal产生管理域CPU占用率超过阈值告警,怀疑与业务压力有关。 1、排查CNA节点,发现只有2个业务虚拟机,将该CNA节点上的虚拟机迁移空后,管理域CPU占用率资源仍然没有得到释放,达90%以上,如下图所示。 2、root账号进入CNA节点操作系统,查看Domain-0虚拟机的CPU占用率情况,确实比较高,如下图所示。 进一步查看CNA进程资源使用情况,top命令发现IPMI进程的CPU占用率有些异常。 根据上面现象怀疑与环境有关。 3、从现场了解到,属于异构虚拟化环境,服务器硬件(联想服务器)无BMC模块,而UVP系统存在IPMI模块,软件狗喂硬件狗的动作是通过主机内的IPMI模板块与BMC模块之间的交互实现的;如服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。因此,此问题是由IPMI模块跟BMC模块交互导致的。 4、软件狗功能说明 周期监测与汇聚交换机的连通性、周期监控业务进程状态、控制DRBD升主降备、周期喂硬件狗。 根因 服务器硬件无BMC模块来处理IPMI命令,IPMI模块在交互时未得到响应,导致IPMI进程持续等待,进入卡死状态。 解决方案 此类现象可以使用停止IPMI服务的方法来解决。使用root账号登录CNA节点的UVP系统,执行如下操作停止IPMI服务。 1、停止IPMI服务。 service ipmi stop 2、取消ipmi服务开机启动。 chkconfig ipmi off 建议与总结 异构环境的服务器无BMC模块时,关闭UVP系统的IPMI模板。 原文 此处内容需要 回复 后才能查看

    SE_You 2024-10-25
    23 0 0
  • FusionCompute V100R005C00SPC100 升级补丁案例:VRM和CNA分开升级导致分发主机软件包失败

    问题描述 升级目标版本为FusionCompute V100R005C00SPC100,操作人员将VRM和CNA分开执行升级操作,即先创建VRM类型的升级工程,将VRM节点升级后执行提交操作,再创建新的CNA类型的升级工程,此时对CNA节点分发软件包时在升级工具界面提示“下载补丁包失败”。 告警信息 告警ID:11312129.下载补丁包失败 处理过程 此处内容需要 回复 后才能查看 原文

    SE_You 2024-09-30
    11 0 0
  • 在FC中,“外部NTP服务器与CNA之间心跳中断”告警的处理办法

    问题描述 登录FusionCompute,查看告警,发现有“外部NTP服务器与CNA之间心跳中断”告警,如下: 告警信息 请参考问题描述 处理过程 此处内容需要 回复 后才能查看 原文

    SE_You 2024-09-04
    11 0 0
  • CNA节点启动时重复显示“loading windows file”

    问题描述 某CNA节点在运行了一段长时间之后,重启后无法进入系统,启动界面一直停留在"loading windows file...",多次重启仍然无法正常进入。 告警信息 无 处理过程 更改服务器BIOS的启动顺序,让从硬盘启动在从网络启动之前。 根因 出现该问题的可能原因如下: 1) 服务器被重装成windows操作系统,原系统盘数据被覆盖。  2)系统盘数据没有问题,但系统未从硬盘引导进入操作系统,而是从其它介质引导。 局点维护人员未对服务器做过重装性质的操作,服务器已经运行了很长一段时间后重启无法进入系统。因此排查服务器的BIOS配置,发现在启动顺序上从PXE网络启动在硬盘启动之前,并且PXE服务器里引用了一个windows系统的映像。 建议与总结 CNA节点重启无法进入系统,如果已经过了系统的引导,那么一般是异常掉电引起的系统数据不一致,需要进行fsck的修复。 本案例显示从windows启动,可能是系统被重装了,或是从其它介质启动,通过BIOS排查启动顺序可解决问题。

    SE_You 2024-07-12
    14 0 0
  • FusionCompute产品CNA节点重启问题

    问题描述 某服务器虚拟化局点采用RH5885服务器作为CNA节点,两台CNA节点发生重启。 告警信息 无 处理过程 分别收集两台CNA的message日志分析,message日志显示现网2台CNA分别在15:38和19:50左右出现了异常重启。 1. 分析19:50重启后生成dump的文件,从dump信息看该节点重启原因为系统lpfc驱动异常触发。 2. 15:38分重启原因从串口日志中可以看出同样是由于lpfc驱动异常导致。 现网FusionSphere版本为R3C00SPC200,lpfc驱动版本为8.3.5.48.3p,经研发确认该版本驱动小概率异常情况下会导致服务器重启。FusionCompute R3C00SPC300版本已经修复该问题(驱动lpfc升级为8.3.7.18版本),现网升级到FusionCompute R3C00SPC300版本后问题解决。 根因 对于服务器重启问题,需要通过操作系统message日志和dump日志来分析问题原因。 建议与总结 针对RH5885服务器的lpfc驱动问题在已发布的FusionAdaptor版本修复,并在FusionCompute R3C00SPC300及R3C10版本合入,考虑到在FusionCompute R3C00SPC200使用RH5885的局点很少,且均已完成FusionAdaptor补丁安装。后续的新局点使用FusionCompute R3C00SPC300及R3C10版本交付。

    SE_You 2024-07-01
    46 0 0