服务器
  • TaiShan 2280 多台服务器BBU告警

    问题描述 现网多台服务器BBU告警,需要分析日志,是否存在共性问题 he RAID controller card 1 BBU temperature (57.000 degrees C) exceeds the overtemperature threshold (60.000 degrees C) 告警信息 处理过程 查看日志发现进风口温度过高,让客户排查机房空调是否异常 根因 机房空调故障导致BBU告警 解决方案 机房空调恢复后,机器下电,重新插拔BBU 免责声明:本案例仅供参考不提供专业意见。

    SE_Gao 2023-06-03
    7 0 0
  • 外部网络无法范围V2服务器管理口

    问题描述 同一内网,有2台V3机架服务器,4台V2服务器与2个V3存储。 当客户通过NAT访问内网管理IP时,发现仅有V2的BMC无法访问: V3存储访问正常 V3服务器访问正常 V2服务器无法访问   告警信息 NA   处理过程 1. 同一网络受限排除网络连通性问题 2. 再排除防火墙设置是否有针对IP的设置。 3. V2服务器BMC的443端口也是打开。 4. 将NAT对外的IP添加到imana中,问题解决 使用命令: ipmcset -d httphost -v x.x.x.x 这里的x.x.x.x是NAT对外的IP。 根因 使用NAT来映射IP的时候,需要在imana上设置服务器对外的IP, imana中有该设置,ibmc中已经不需要该设置。 解决方案 使用命令: ipmcset -d httphost -v x.x.x.x 这里的x.x.x.x是NAT对外的IP。 建议与总结 NA 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-04-19
    9 0 0
  • RH2288V2服务器上电卡住

    问题描述 RH2288V3服务器上电过程中,在流程走到RAID卡的BIOS上电时,卡住并且报错。 告警信息 处理过程 根据报错内容描述,这个问题是由于在写操作过程中意外掉电导致的Cache data lost,已经恢复,该问题可能是由于内存问题,电池故障,或者没有安装电池导致。 这类RAID卡的问题比较常见的是由于电池导致的,一般情况是没配置电池和超级电容,但是创建的RAID组的写策略又是使用的write back,这就会出现这类告警。 先根据设备的SN查看是否配备有电池或者超级电容,发现没有配备电池;然后建议客户购买电池,发现客户没有购买电池的意向。 根因 没配置电池和超级电容,但是创建的RAID组的中有RAID配置的写策略是write back 解决方案 1.建议客户购买电池来支持RAID卡的write back特性 2.将每个RAID组的写策略都修改成为write through。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-03-24
    15 0 0
  • rh2288 v2重启提示:read disk partition,please wait……

    问题描述 rh2288 v2操作系统redhat 7.0,重启提示:read disk partition,please wait...... 解决方案 客户做漏洞扫描,将光盘接入光驱中,扫描结束后,没有拨出光驱重启导致,将光驱拨出后重启正常。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-03-24
    11 0 0
  • 2208 RAID卡配置全局SSD Caching操作指导

    问题描述 一线反馈某服务器文件读写速度变慢,研发定位发现Slot0有大量timeout及硬盘IO超时,建议更换硬盘。目前官网无相关指导书指导SSD缓存盘损坏后的更换方法。本文介绍了如何更换故障SSD Caching模式下的SSD盘。 告警信息 服务器SSD所在slot0出现红灯告警,硬盘损坏。 处理过程 1.在操作系统下运行storcli64 RAID卡工具,具体的安装操作详见华为V2&V3 服务器 RAID 控制卡用户指南。操作前要确认当前服务器没有业务,并且SSD Caching的数据都已经落盘(无命令方式查询,通过硬盘指示灯闪烁情况判断,工作中的Cache处于持续闪烁状态)。 2.在命令行界面输入./storcli64 /c0 show确认当前RAID卡下作为CacheCade SSD盘的EID与Slot号。同时需要确认当前CacheCade SSD的VD号。 3.对要更换的 CacheCade SSD硬盘进行解绑操作,解除全局CacheCade并删除VD,通过输入./storcli64 /c0/v18 del cachecade 来进行CacheCade的解绑。 以上命令可以同时完成VD删除以及Cache盘解除操作,解除后应显示Delete VD succeeded即为成功。请注意DG/VD(红字部分)的替换 4.解绑后输入./storcli64 /c0 show确认解绑的SSD状态变为UG。 5.确认已经解绑后进行更换SSD操作,更换操作完成后通过命令进行SSD CacheCade绑定操作。绑定SSD CacheCade命令为:./storcli64 /c0 add vd cc raid0 drives=26:0 以上命令可以直接完成Cache盘的Raid创建,VD创建以及CacheCade绑定操作,cache盘应使用单盘Raid0。请注意EID:Dlt的编号进行替换(红字部分) 执行后如有以下提示则为成功。 Controller = 0 Status = Success Description = Add VD Succeeded 建议与总结 操作前请注意: 操作系统下运行storcli64工具,需要提前进行安装。 操作过程中需要停止服务器业务,且缓存数据已经完成落盘后即可操作。 根据研发反馈,目前没有命令方式查询落盘……

    SE_Meng 2023-03-24
    63 0 0
  • ipmitool批量开启/关闭SSH命令

    问题描述 客户咨询ipmitool批量关闭/开始SSH的命令 解决方案 批量开启SSH: ipmitool -I lanplus -H 192.168.*.*** -U XXX -P XXXX raw 0x30 0x93 0xdb 0x07 0x00 0x0F 0x02 0x01 0 0 1 1 批量关闭SSH: ipmitool -I lanplus -H 192.168.*.*** -U XXX -P XXX raw 0x30 0x93 0xdb 0x07 0x00 0x0F 0x02 0x01 0 0 1 0 ipmitool的命令格式说明: ipmitool -H (BMC的管理IP地址) -I lanplus -U (BMC登录用户名) -P (BMC 登录用户名的密码)     后面的“raw 0x30 0x93 0xdb 0x07 0x00 0x0F 0x02 0x01 0 0 1 1”是开启SSH的指定命令,如果要关闭的话把最后的 1 改成 0 即可。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-02-16
    13 0 0
  • ipmitool带外发送NMI命令

    问题描述 客户咨询以下服务器是否支持ipmi命令发送NMI执行,具体命令是什么? HUAWEI 2288H V5 HUAWEI RH2288 V3 HUAWEI X6000 HUAWEI RH2288H V2 HUAWEI 1288H V5 HUAWEI RH1288 V3 HUAWEI RH2288H V3 HUAWEI 5288 V3 HUAWEI 5288 V5 解决方案 发送NMI中断命令如下: ipmitool -I lanplus -H {ipmi lan IP address} -U {username} -P {passwd} chassis power diag 支持V2、V3和V5服务器的,我们表格里面的9种服务器可以使用如上命令。 NMI的命令须知如下: 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-02-06
    4 0 0
  • Arm64处理器Linux系统上Java集成KVM无法启动

    问题描述 在arm64架构Linux操作系统的客户端上,点击Java集成远程控制台,下载kvm.jnlp文件后,点击无反应 处理过程 arm64版本的OpenJDK中,未集成启动jnlp文件用的javaws,导致jnlp文件无法启动。BMC规格中并未支持在arm64架构的客户端上运行Java集成远程控制台,但此问题可以通过替代工具解决。 解决方案 使用IcedTea Web替代javaws启动jnlp文件。以UOS为例: 1. 在有网络的前提下,打开命令行,并输入 apt-get install icedtea-netx 2. 可能提示需要安装依赖,此时按提示输入 apt-get install –fix-broken 下载依赖,包括JRE 11等,共计大概200MB 3. 下载kvm.jnlp,右击 –> 打开方式 -> IcedTea Web Start,或使用命令行cd到kvm.jnlp所在目录后运行 javaws kvm.jnlp 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-02-03
    4 0 0
  • RAID卡产生Multi-bit ECC错误但iBMC无告警

    问题描述 客户一台RH5885 V3服务器系统挂死,重启系统后看到RAID卡报Multi-bit ECC Error错误,但在iBMC上没有看到相关告警,客户询问没有告警的原因。 处理过程 有两种方法可以确认RAID卡产生了Multi-bit ECC Error。 1.  系统挂死,重启系统后,能看到RAID卡报Multi-bit ECC Error。 2.  系统挂死,重启系统后,收集iBMC一键收集日志,在LSI_RAID_Controller_info日志里能看到Multi-bit ECC Error事件。 问题原因说明: RAID卡具备ECC(Error Correcting Code)这种内存校验机制,采用奇偶性校验的方法,出现的ECC错误分为Single-bit ECC Error和Multi-bit ECC Error两种。 Single-bit ECC Error:只有单个bit出现了错误,能通过奇偶性校验恢复,因此RAID卡能容许出现一定次数的Single-bit ECC Error。iBMC会从RAID卡获取出现错误的次数和产生告警的门限,当次数≥门限时,iBMC会产生告警并记录维护日志。 Multi-bit ECC Error:有多个bit出现了错误,不能通过奇偶性校验恢复,因此RAID卡通常会出现挂死,进而导致系统挂死甚至系统重启。RAID卡挂死后,iBMC无法通过RAID卡检测到产生了Multi-bit ECC Error,因此iBMC无法产生告警。系统重启后,Multi-bit ECC Error可能恢复,此时iBMC可以从RAID卡获取到一次Multi-bit ECC Error事件,并记录在LSI_RAID_Controller_info里,这个是在multi-bit ECC Error发生且系统重启之后延迟记录的。 解决方案 Single-bit ECC Error:处理方法参考案例http://3ms.huawei.com/hi/group/1004825/thread_7719709.html?mapId=9502473。 Multi-bit ECC Error:处理方法参考案例https://support.huawei.com/enterprise/zh/knowledge/KB1000097818。 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-01-18
    8 0 0
  • BMC KVM显示异常解决案例

    问题描述 BMC KVM 显示异常 处理过程 1、  确认BMC日志是否有告警,无 2、查询BMC日志的OS截屏,确认之前显示正常 3、接物理显示器(客户用KVM) 确认还是异常 根因 BMC 日志正常,说明BMC芯片是好的 因为显卡芯片和BMC芯片集成在一起,建议彻底下电再上电,如果不行再换主板 经过彻底下电再上电后问题解决,说明之前有异常。 解决方案 1、申请停业务 2、关机后,拔掉AC电源线,等待超过5秒 3、重新上电,检查物理显示器输出 4、启动启动正常后,登录BMC检查输出,正常 免责声明:本案例仅供参考不提供专业意见。

    SE_Meng 2023-01-18
    49 0 0