-
RH2288V2服务器上电卡住
问题描述 RH2288V3服务器上电过程中,在流程走到RAID卡的BIOS上电时,卡住并且报错。 告警信息 处理过程 根据报错内容描述,这个问题是由于在写操作过程中意外掉电导致的Cache data lost,已经恢复,该问题可能是由于内存问题,电池故障,或者没有安装电池导致。 这类RAID卡的问题比较常见的是由于电池导致的,一般情况是没配置电池和超级电容,但是创建的RAID组的写策略又是使用的write back,这就会出现这类告警。 先根据设备的SN查看是否配备有电池或者超级电容,发现没有配备电池;然后建议客户购买电池,发现客户没有购买电池的意向。 根因 没配置电池和超级电容,但是创建的RAID组的中有RAID配置的写策略是write back 解决方案 1.建议客户购买电池来支持RAID卡的write back特性 2.将每个RAID组的写策略都修改成为write through。 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-03-2415 0 0 -
rh2288 v2重启提示:read disk partition,please wait……
问题描述 rh2288 v2操作系统redhat 7.0,重启提示:read disk partition,please wait...... 解决方案 客户做漏洞扫描,将光盘接入光驱中,扫描结束后,没有拨出光驱重启导致,将光驱拨出后重启正常。 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-03-2411 0 0 -
2208 RAID卡配置全局SSD Caching操作指导
问题描述 一线反馈某服务器文件读写速度变慢,研发定位发现Slot0有大量timeout及硬盘IO超时,建议更换硬盘。目前官网无相关指导书指导SSD缓存盘损坏后的更换方法。本文介绍了如何更换故障SSD Caching模式下的SSD盘。 告警信息 服务器SSD所在slot0出现红灯告警,硬盘损坏。 处理过程 1.在操作系统下运行storcli64 RAID卡工具,具体的安装操作详见华为V2&V3 服务器 RAID 控制卡用户指南。操作前要确认当前服务器没有业务,并且SSD Caching的数据都已经落盘(无命令方式查询,通过硬盘指示灯闪烁情况判断,工作中的Cache处于持续闪烁状态)。 2.在命令行界面输入./storcli64 /c0 show确认当前RAID卡下作为CacheCade SSD盘的EID与Slot号。同时需要确认当前CacheCade SSD的VD号。 3.对要更换的 CacheCade SSD硬盘进行解绑操作,解除全局CacheCade并删除VD,通过输入./storcli64 /c0/v18 del cachecade 来进行CacheCade的解绑。 以上命令可以同时完成VD删除以及Cache盘解除操作,解除后应显示Delete VD succeeded即为成功。请注意DG/VD(红字部分)的替换 4.解绑后输入./storcli64 /c0 show确认解绑的SSD状态变为UG。 5.确认已经解绑后进行更换SSD操作,更换操作完成后通过命令进行SSD CacheCade绑定操作。绑定SSD CacheCade命令为:./storcli64 /c0 add vd cc raid0 drives=26:0 以上命令可以直接完成Cache盘的Raid创建,VD创建以及CacheCade绑定操作,cache盘应使用单盘Raid0。请注意EID:Dlt的编号进行替换(红字部分) 执行后如有以下提示则为成功。 Controller = 0 Status = Success Description = Add VD Succeeded 建议与总结 操作前请注意: 操作系统下运行storcli64工具,需要提前进行安装。 操作过程中需要停止服务器业务,且缓存数据已经完成落盘后即可操作。 根据研发反馈,目前没有命令方式查询落盘……
SE_Meng 2023-03-2463 0 0 -
SMC2.0下电重启后MCU状态异常
问题描述 SMC和SC进行手动下电,90分钟后重新上电后出现以下问题:A局点MCU离线;B局点MCU SNMP连接不上、SIP注册闪断;C局点 MCU SIP注册不上 处理过程 A局点MCU离线问题 SMC侧 1)分析SMC日志,SMC和中心医院MCU间TCP连接一直失败; 2)结合SMC侧抓包进行分析,SMC每10秒发起一次连接,在TCP三次握手时就会收到对端的重置包导致连接失败。 MCU侧 1)分析中心医院MCU日志,MCU处理连接请求时检测到ssl连接失败,原因为对端重置连接(Connection reset by peer); 根据SMC、MCU侧分析,存在中间网络设备频繁重置SMC和MCU的连接,导致中心医院MCU无法上线。 B局点 MCU SNMP连接不上 SMC侧 1)分析SMC日志,SMC发送SNMP连接请求后收不到响应导致连接失败; 2)分析SMC侧抓包,SMC发送连接请求后没有任何响应; 3)SMC后台telnet连接河源MCU的SNMP监听端口(161),也报连接失败; MCU侧 1)分析河源MCU日志,MCU的161端口处于监听状态,但始终收不到连接请求; 根据SMC、MCU侧分析,河源MCU SNMP连接不上为网络拦截导致。 B局点 MCU SIP 注册闪断 MCU侧 1)分析河源MCU日志,问题时MCU发送注册请求后始终收不到响应; 2)同时底层协议栈上报状态码408,表示“注册超时”; SC侧 1)分析SC日志,SC和MCU间TCP断链导致注册失败; 根据SC、MCU侧分析,B局点 MCU 注册闪断为TCP断链和网络拦截导致。 C局点 MCU SIP注册不上 MCU侧 1)分析佛山MCU日志, MCU发送注册请求后始终收不到响应; 2)同时底层协议栈上报状态码499,此处表示注册消息发送失败,为TLS建链失败导致; SC侧 1)分析SC日志,SC上电后始终未收到MCU的注册请求; 2)同时结合SC信令诊断分析,SC收不到佛山MCU的任何请求; 根据SC、MCU侧分析,佛山MCU 注册不上为TCP建链失败导致。 根因 问题一:A局点 MCU离线为中间网络设……
SE_Meng 2023-03-2137 0 0 -
SMC 2.0 独立SC告警磁盘空间不足问题
问题描述 独立SC存在磁盘空间不足告警,如下图所示: 处理过程 登录两套独立SC设备的122业务地址,查看设备状态为双机状态: 其中244节点为主节点(图1); 243节点为备节点(图2) 2、分别登录两套独立SC的操作系统后台检查磁盘空间状态: 【1】cd /opt/gaussdb/data/archive_log 【2】执行du –sh查看路径空间 备机空间信息如下: 主机空间信息如下: 经梳理现网情况,明确组网情况为独立SC与EUA(企业通讯录)为合设状态 根因 安装的V600R019C10SPC700(包括)之后版本的EUA,由于数据库变更,对应的配置也改变,新版本数据库的归档日志等文件占用硬盘空间过多导致独立SC出现磁盘空间不足的报警。 解决方案 修改备机数据库配置文件“zengine.ini”,增加清理旧归档日志配置,并在配置修改后重启数据库。 修改主机数据库配置文件,将配置项修改为“TRUE”即可。 修改前: 修改后: 配置后磁盘空间情况: 主机空间: 备机空间: 告警消除情况: 经确认操作后目前告警已经消除,业务确认无影响;后续持续观察。 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-03-1912 0 0 -
ipmitool批量开启/关闭SSH命令
问题描述 客户咨询ipmitool批量关闭/开始SSH的命令 解决方案 批量开启SSH: ipmitool -I lanplus -H 192.168.*.*** -U XXX -P XXXX raw 0x30 0x93 0xdb 0x07 0x00 0x0F 0x02 0x01 0 0 1 1 批量关闭SSH: ipmitool -I lanplus -H 192.168.*.*** -U XXX -P XXX raw 0x30 0x93 0xdb 0x07 0x00 0x0F 0x02 0x01 0 0 1 0 ipmitool的命令格式说明: ipmitool -H (BMC的管理IP地址) -I lanplus -U (BMC登录用户名) -P (BMC 登录用户名的密码) 后面的“raw 0x30 0x93 0xdb 0x07 0x00 0x0F 0x02 0x01 0 0 1 1”是开启SSH的指定命令,如果要关闭的话把最后的 1 改成 0 即可。 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-02-1613 0 0 -
ipmitool带外发送NMI命令
问题描述 客户咨询以下服务器是否支持ipmi命令发送NMI执行,具体命令是什么? HUAWEI 2288H V5 HUAWEI RH2288 V3 HUAWEI X6000 HUAWEI RH2288H V2 HUAWEI 1288H V5 HUAWEI RH1288 V3 HUAWEI RH2288H V3 HUAWEI 5288 V3 HUAWEI 5288 V5 解决方案 发送NMI中断命令如下: ipmitool -I lanplus -H {ipmi lan IP address} -U {username} -P {passwd} chassis power diag 支持V2、V3和V5服务器的,我们表格里面的9种服务器可以使用如上命令。 NMI的命令须知如下: 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-02-064 0 0 -
Arm64处理器Linux系统上Java集成KVM无法启动
问题描述 在arm64架构Linux操作系统的客户端上,点击Java集成远程控制台,下载kvm.jnlp文件后,点击无反应 处理过程 arm64版本的OpenJDK中,未集成启动jnlp文件用的javaws,导致jnlp文件无法启动。BMC规格中并未支持在arm64架构的客户端上运行Java集成远程控制台,但此问题可以通过替代工具解决。 解决方案 使用IcedTea Web替代javaws启动jnlp文件。以UOS为例: 1. 在有网络的前提下,打开命令行,并输入 apt-get install icedtea-netx 2. 可能提示需要安装依赖,此时按提示输入 apt-get install –fix-broken 下载依赖,包括JRE 11等,共计大概200MB 3. 下载kvm.jnlp,右击 –> 打开方式 -> IcedTea Web Start,或使用命令行cd到kvm.jnlp所在目录后运行 javaws kvm.jnlp 免责声明:本案例仅供参考不提供专业意见。
SE_Meng 2023-02-034 0 0 -
RAID6与RAID5数据安全性对比
问题描述 磁盘阵列(disk array)可以有效的提高存储系统的可靠性和性能,同时也存在显著的缺点,那就是由于多个设备(磁盘)同时使用,导致了可靠性降低(从概率的角度来讲:N个设备的可靠性是一个设备的1/N)。 解决方案 RAID(Redundant array of inexpensive disk)就是为了解决这个问题而产生的,RAID通过给磁盘阵列增加冗余磁盘提高了磁盘阵列的可靠性。所谓冗余磁盘,即该磁盘不用于存放实际数据,而用来存放一些冗余信息,而这些冗余信息可用来在必要的时候进行有效数据恢复,从而增加磁盘阵列的可靠性,翻译成中文应该叫廉价磁盘冗余阵列。 在RAID6出现之前,RAID已经有了从RAID0~RAID5六个版本。那么我们已经有了这么多的RAID方式,提供了相当级别的可靠性保护,为什么我们还需要RAID6?在这里,我们这里先比较研究一下几种比较有代表性的RAID方式: 磁盘冗余家族概览 目前应用最广泛,支持设备最多的RAID方式主要是RAID0,RAID1和RAID5 (1)无冗余(RAID0):RAID0实际上不能算做真正的RAID技术,它只是实现了磁盘阵列存放数据的带状分布。虽然提高了大规模数据访问的性能,但是RAID0并没有冗余容错的功能,因为它本身并无冗余,所以可以说这里的RAID0是个误称 (2)镜像(RAID1):RAID1同样实现了数据的带状分布,与RAID0所不同的是,在数据写入一个磁盘的时候,同时在另一个磁盘做相应的镜象。因此,RAID1虽然有数据容错功能,但是其对磁盘的利用率实在比较底,仅为50%。 (3)奇偶校验(RAID5):相对于RAID1比较,RAID5也是仅仅实现了单个磁盘的冗余纠错功能,但是却大大提高了磁盘的有效利用率。以RAID5(4D+P)为例子来讲,使用4块磁盘存放数据位,使用1块磁盘存放校验位。其基本原理是这样的:根据条带化的数据4D(使用四位数据)生成一位的校验信息,存放在第五块磁盘中。 生成P校验位的公式一般是这样的: P = D1 ⊕ D2 ⊕ D3 P为校验位,D1~D3分别代表三……
SE_Meng 2023-01-304 0 0 -
HCS 8.1.0版本eSight业务管理数据库出现system数据库空间占满故障
问题描述 局点eSight21.0.0SPC020 对应高斯版本, 高斯分区索引没有定期重建,导致eSight数据库节点中system数据库空间2G已被占满 告警信息 处理过程 一、后台数据库修改system数据库空间大小 1.确定主数据库节点,登录root 2.登录数据库 su - dbuser -c "zsql sys/sys的密码@127.0.0.1:32081" 3.查询system数据库空间大小及使用情况 select b.AUTOEXTENSIBLE,a.USED_SIZE,b.BYTES,b.MAXBYTES,(a.USED_SIZE*1.0/b.MAXBYTES)*100 || '%' as USED_RATE from adm_tablespaces a, adm_data_files b where a.TABLESPACE_NAME = b.TABLESPACE_NAME and a.TABLESPACE_NAME = 'SYSTEM'; 4.扩容空间大小 alter database datafile '/opt/zenith/data/数据库实例名称/data/tablespace/system' autoextend on maxsize 需要扩容后的空间大小(示例:5G); 注:数据库实例名称 可登录https://主数据库节点:31945 管理面查看 5.备数据库无需操作,等待自动同步即可 二、管理面web界面修改 1.登录https://主数据库节点:31945 管理面 2.登录数据库管理库 su - dbuser -c "zsql sys/sys的密码@127.0.0.1:32080"(注意:端口变了) 2.查看eSight主数据库实例类型 select INSTANCE_EXT_ATTR from DBMGRDB.TBL_DB_INSTANCE where DB_INSTANCE_NAME = '实例名称'; 示例返回:"local_rpl_mode":"semisync" 3.修改web界面system数据库空间大小 update DBMGRDB.TBL_DB_INSTANCE set INSTANCE_EXT_ATTR = '{"local_rpl_mode":"semisync","system_tablespace_max_size":"需要扩容后的空间大小(示例:5120)"}' where DB_INSTANCE_NAME = '实例名称'; 4.依次执行如下命令,激活文件 su - ossadm source /opt/oss/manager/agent/bin/engr_profile.sh python from util import httpclient httpclient.IRHttpClient().post('/rest/……
SE_Meng 2023-01-2612 0 0