-
CNA节点根目录占满导致添加数据存储、虚拟机迁移等基本功能失败
问题描述 客户在给CNA节点添加数据存储时失败,在vrm的日志中看到无法写入数据库;在迁移虚拟机时,提示目标节点未准备好。 最终在查看CNA节点的系统状态时,发现根目录被占满,如下图: 告警信息 无 处理过程 对于根目录被占满,我们首先要定位到哪些文件比较大,定位之后还要判断这些文件是否是正常的系统文件或日志,如果不是,就可以手动删除,以释放根目录的空间。 这里通过以下的命令可以逐级查看每个目录下每个文件占用的大小:(在对应的目录下用命令:du -h --max-depth=1) 逐级目录检查,筛选出哪些目录及文件比较大,可以自己确认的,即可删除,自己确认不了,再和研发确认是否需要删除。 这里有个方法可以做一些初步诊断: 用history命令查看,客户是否执行过一些软件安装的命令,看这些安装包是否涉及到你筛选出来的文件夹及文件,如果两者吻合或相关,基本可以确认删除。 比如:我用history查到客户安装过一个netshutdown的脚本,且在我筛选出的内容里有一个netshutdown的目录占用空间很大,基本可以确认,这个软件是非法安装的,需要处理掉,释放空间 根因 根目录被占满通常有两个大的方向去排查 1. CNA系统进程真正异常,比如打印一大堆异常日志,充满整个目录 2. 客户的环境比较杂乱,比如他自己上传了一些文件,或者非法安装了一些软件,导致产生很多不受系统控制的临时文件或日志 在这个案例中,我们最终发现是客户自己安装了一些非法软件,这个软件打印的日志占用了绝大多数根目录的空间。 建议与总结 对于桌面云的系统,我们需要提醒客户,在使用过程中,不要随便安装、测试一些我们不了解的脚本或软件,否则很容易导致系统异常。
SE_You 2024-06-2529 0 0 -
FusionCompute加载存储资源后,存储报多路径错误
问题描述 1. FusionCompute加载存储资源后,存储报多路径版本过低或者主机未安装多路径错误。存储上报警如下所示: 2. 切换主机存储多路径类型时,显示仍然是通用类型: 点击切换重启后提示“操作不被允许,因为主机上有虚拟机存在”,如下图所示: 告警信息 1、在存储S5500T上报“主机上未安装UltraPath或UltraPath版本过低错误”。 2、切换主机存储多路径类型时,显示仍然是通用类型,点击切换重启后提示“操作不被允许,因为主机上有虚拟机存在”。 处理过程 1. 关闭虚拟机。在FusionCompute中,选择“虚拟数据中心管理 > 虚拟机和模板”,进入“虚拟机和模板”页面。在虚拟机列表中找到需要解绑定的主机,如“VRM01 、VRM02”。 单击待解绑定主机的虚拟机名称,显示“概要”页签。在右边内容页面,选择“操作 > 安全关闭”。 2. 解绑定主机。单击待解绑定主机的虚拟机名称,显示“概要”页签。在“选项”页签中,单击“与主机绑定”,进入“与主机绑定”页面。取消勾选“与主机绑定”,如下图: 单击“确定”,完成解绑定主机。 3. 确定主机上所有的虚拟机已经移除。在FusionCompute选择“虚拟数据中心管理 > 主机和集群”,进入“主机和集群”入门页面。在左侧导航树上选择“站点 > 集群 > 主机”,进入该主机入门页面。单击“虚拟机”页面,查看主机上是否还有虚拟机。 4. 切换主机存储多路径类型至华为。在FusionCompute选择“虚拟数据中心管理 > 主机和集群”,进入“主机和集群”入门页面。在左侧导航树上选择“站点 > 集群 > 主机”,进入该主机入门页面。在“基本操作”中单击“配置存储多路径”,弹出对话框,如图所示: 选择“华为”,点击“立即重启”按钮,弹出提示框。单击“确定”,完成主机存储多路径类型的切换。 5. 确定主机存储多路径类型切换成功,重新绑定虚拟机至物理主机。 根因 在安装VRM时,默认与……
SE_You 2024-06-2423 0 0 -
FusionCompute R3C00SPC300 安全重启linux虚拟机任务卡死
问题描述 1、通过FusionCompute portal 安全重启linux虚拟机任务卡死,任务进度停留在50%,如下图所示 2、点击取消任务,提示任务在此阶段不允许取消,如下图所示 3、查看虚拟机状态为运行中,如下图所示 4、可通过FusionCompute portal 强制重启虚拟机或在虚拟机内部重启恢复; 5、虚拟机操作系统类型:suse11 sp1 告警信息 无 处理过程 1、虚拟机状态为运行中,FusionCompute portal上任务卡住在50%,但portal上无相关告警; 2、查看数据库任务状态: 1)通过“PuTTY”使用root登录VRM主节点; 2)执行psql -U galax -d vrm,使用galax帐户登录VRM数据库; 3)通过以下命令,查看tbl_task表,任务状态为ready,任务无异常,如下图所示 3、通过putty登陆用户虚拟机,查看虚拟机内部/var/log/messages日志,搜索‘reboot’关键字,对应时间点无相关打印日志 4、使用vi编辑器打开虚拟机内部/etc/inittab文件,查找ca::ctrlaltdel关键字,如下图所示,reboot命令被屏蔽 5、修改ca::ctrlaltdel:这一行为:ca::ctrlaltdel:/sbin/shutdown -t3 -r now,修改之后保存,如下图所示: 6、从FusionCompute portal上测试可正常重启该VM 根因 1、FusionCompute系统异常; 2、虚拟机内部出现异常 建议与总结 linux 虚拟机镜像制作过程中,修改了/etc/inittab文件中ca::ctrlaltdel这一行代码,导致虚拟机无法响应外部命令进行重启。
SE_You 2024-06-2115 0 0 -
如何处理华为RH5885服务器网卡乱序问题
问题描述 FusionCompute系统扩容集群,所用CNA为华为RH5885服务器。在加载过程中,操作系统小内核启动后在设置IP阶段,总是失败,导致系统无法通过PXE加载。 告警信息 无。 处理过程 (1) 如图2,对于华为RH5885服务器,PCIE-1 到 PCIE-8 插槽的总线id由小到大顺序排列,板载网卡(通过总线id排序)属于PCIE-6 到 PCIE-7之间。 (2) 若要保证网卡顺序,可以将外接网卡插在最后(即PCIE-8或PCIE-7)即可解决。 根因 因该服务器板载网卡属于PCI插槽6-7之间的位置。若将外插网卡插在PCIE-1 – PCIE-6口,则会导致外插网卡逻辑顺序提前,而作为系统内eth0,影响网络规划及环境搭建。 建议与总结 无。
SE_You 2024-06-2022 0 0 -
FusionCompute FCSAN场景的存储虚拟化集群安全重启主机异常
问题描述 操作 a. 存储使用FCSAN设备,并且启用存储虚拟化特性 b. 安全重启存储虚拟化集群的某一主机 现象 a. 重启的主机异常卡死 b. 在其他主机启动虚拟机失败,失败原因为挂卷超时 c. 虚拟机HA任务进度在70% 告警信息 无 处理过程 1. FCSAN+存储虚拟化场景下,重启主机建议从BMC强制关机或者下电,而非安全关机、安全下电或者调用reboot命令。 2. 升级FusionCompute版本至V100R003C10SPC500以上版本。 根因 1. 对主机进行reboot或halt时,OS会按照:关闭管理和业务进程->逐个关闭虚拟机->卸载数据存储->关闭网络和存储服务->卸载文件系统->关闭主机。 2. 基于以上处理逻辑,在卸载数据存储时,由于vnd进程最早被关闭,因此导致虚拟机使用的内存交换设备一直存在,从而导致数据存储umount失败。 3. 在FCSAN场景下,关闭网络时,只能中断管理面,而存储面则一直畅通,从而导致UVP进入“存储断链”的处理逻辑:一直尝试通知vims集群内的其它节点,但此时管理面已经中断,故一直无法通知成功,从而造成主机reboot卡住。 4. 上述场景下,存储虚拟化集群会通过一定的算法找出一个节点并退出集群(重启该节点)。 建议与总结 无
SE_You 2024-06-1934 0 0 -
FusionComputer PVDriver版本过低导致虚拟机之间数据拷贝速率低
问题描述 虚拟机A上运行着业务系统服务器,在虚拟机B上(客户端)通过浏览器访问虚拟机A的web页面,并进行数据上传操作,发现上传速度很慢,只有几十K/S。 进一步测试虚拟机A和虚拟机B拷贝速率,两台虚拟机相互拷贝数据,速率7M/S(正常情况下,同一局域网内的数据拷贝速率能达到几十M/S),该速率存在异常。 两个E6000上的计算节点分别有两台虚拟机A与B,虚拟机位置如下图: 告警信息 无 处理过程 升级虚拟机PVDriver版本到虚拟化平台对应版本,升级方式如下: 虚拟机数量较少时,建议手动为虚拟机重新安装PVDriver。参照产品文档如下章节:“操作与维护--->虚拟机管理--->Tools管理--->卸载Tools”。 虚拟机数量较多时,建议使用升级工具进行一并推送升级。详情请参照support网站升级安装指南,下载网址:http://support.huawei.com/enterprise/docinforeader.action?contentId=DOC1000027996&idPath=7919749|7919788|9856606|8576912 注意: 升级虚拟机PVDriver版本后需重启虚拟机生效,版本升级前需和客户做好沟通。 根因 排查虚拟机所在主机到共享存储的读写速率,发现主机到共享存储读写速率正常,如下图所示: 使用Jperf工具检测虚拟机A和虚拟机B之间的网络参数,发现网络带宽极不稳定,丢包严重。 根据以上分析问题根因为网络异常导致,根据虚拟机A到虚拟机B的数据包传输路径进项分段排查,传输路径:“虚拟机A->CNA13的Domain0->CNA13主机物理网卡->交换板->CNA04主机物理网卡->CNA04的Domain0->虚拟机B”。 首先检查“CNA13主机物理网卡->交换板->CNA4主机物理网卡”,从CNA13主机长PING CNA04主机,发现主机之间网络稳定,无抖动发生。 CNA13:~ # ping 192.168.8.19 PING 192.168.183.13 (192.168.183.13) 56(84) bytes of data. 64 bytes fr……
SE_You 2024-06-1828 0 0 -
安全删除磁盘后创建磁盘提示存储资源不足
问题描述 安全删除磁盘后重新创建磁盘提示数据存储容量不足,创建失败,但FusionCompute Portal界面显示数据存储容量足够。如下图所示,界面显示该数据存储实际可用空间为106G。 此时创建大小为100G的磁盘,提示“存储资源不足”,创建失败。 告警信息 无 处理过程 等待安全删除卷后台格式化任务完全执行完毕后,重新创建卷即可。可按如下方式检测安全删除卷后台格式化任务是否全部执行完毕。 1) 使用putty工具登录VRM主虚拟机(gandalf用户,通过管理IP地址登录) 2) 执行su命令,并提示输入“root”用户的密码,切换至“root”用户 3) 执行TMOUT=0命令,防止“PuTTY”超时退出 4) 执行命令:psql -U galax vrm -c "select * from tbl_vs_slice where sl_volume_id='-11';" 提示输入VRM数据库密码,如果未查询到相关记录,表明安全删除卷后台格式化任务已经完全执行完毕,如下所示: 如果查询到相关记录,表明安全删除卷后台格式化任务仍在进行,请继续等待其删除完毕。 根因 在分配slice时提示存储资源不足,没有足够的可用slice创建卷,为何界面上显示的实际可用空间与实际可用slice个数不一致?安全删除卷后其所在数据存储的实际可用空间是以1G为单位缓慢回收,而不是立即全部回收所删除卷的空间,但本问题中却发现该卷的空间被立即全部回收,分析安全删除卷的代码后未发现可引起本现象的问题,那么怀疑可能有其它任务对数据存储的实际使用空间进行了更改,其更改可能与安全删除卷任务产生了冲突,导致数据存储实际可用空间显示不正确。 分析代码发现有一个监控数据存储实际使用空间的后台任务,该任务每5分钟执行一次,对于块存储会自动检测该数据存储上的卷总容量,并根据计算的所有卷的总容量得到数据存储的实际可用容量并更新,如果安全删除卷后该后台监控任务正好执行,则会产生数据存储实际可用容量……
SE_You 2024-06-1757 0 0 -
豪威SB-3164E-G1A3存储添加数据存储后不可用
问题描述 豪威SB-3164E-G1A3存储添加数据存储成功,但立即上报主机关联的数据存储异常告警,同时该数据存储与主机的关联状态显示为异常,数据存储不可用。 告警信息 无 处理过程 删除读取失败的块大小为4096B的LUN,重新创建块大小为512B的LUN,问题解决。 根因 存储使用豪威 SB-3164E-G1A3,FusionCompute界面添加数据存储任务成功。 添加成功后马上会上报主机关联的数据存储异常告警,如下: 同时该数据存储与主机关联状态变为异常状态 登录主机,检查该数据存储的挂载状态,发现其挂载正常,如下: 数据存储挂载正常,那为何会上报异常告警?登录存储,检查存储上的配置发现该LUN的块大小为4096B,存储上还有其他块大小为512B的LUN,这些LUN读写都没有问题,唯独块大小4096B的LUN读失败,分析块大小的含义认为可能是指该LUN使用大扇区,即扇区大小为4096B。 综上,读取LUN失败的原因是存储侧创建LUN时采用了大扇区,而主机侧的存储设备检测IO不支持大扇区,导致读取失败。 建议与总结 FusionCompute V100R003C00各版本不支持大扇区存储设备,对于现网异构存储设备采用大扇区方式的,请重新使用小扇区方式。
SE_You 2024-06-1421 0 0 -
linux虚拟机系统磁盘使用率100%问题分析
问题描述 问题现象: xvda2磁盘使用率达到100% 告警信息 FCportal上产生虚拟机系统磁盘使用率过高的告警 处理过程 1、重启虚拟机 2、将持有删除文件的句柄的进程kill掉。(业务部门请确认一下为什么一个零时文件最多达到3G,虽然被删除了,但是句柄没有被释放,是不是业务处理有问题)。 根因 通过df命令跟du命令的对比发现两者不一致。 常见的df和du不一致情况就是文件删除的问题。当一个文件被删除后,在文件系统目录中已经不可见了,所以du就不会再统计它了。然而如果此时还有运行的进程持有这个已经被删除了的文件的句柄,那么这个文件就不会真正在磁盘中被删除,分区超级块中的信息也就不会更改。这样df仍旧会统计这个被删除了的文件。 1、通过delete.log日志文件可以看出来,系统中存在很多文件被删除,但是仍然被进程持有句柄,导致文件实际上没有被删除。 2、通过将没有释放删除文件句柄的进程kill掉,发现可用的磁盘增加了1.3G 建议与总结 由于存在进程一直持有已经删除文件的句柄,导致删除的文件仍然在磁盘上没有被释放,所以仍然占用磁盘空间,导致磁盘空间被占满,在删除文件时,关注是否存储进程一直持有其句柄,如果有,需要及时kill掉。
SE_You 2024-06-13111 1 0 -
公司域控策略下发期间重启win2003虚拟机导致网络不通
问题描述 过程描述大致如下: 1.第一天,开机登录。域控下发更改策略,虚拟机同步策略中,ntuser.pol文件被加密。此时关机。 2.第二天,开机,ipsec服务工作正常,winlogon.exe访问策略文件ntuser.pol,并通过其修改注册表,但该文件无法识别(EventId:1096),以致ipsec注册表被删除,但ntuser.pol会重新生成。虚拟机可以正常工作。关机。 3.第三天,开机,ipsec服务访问ipesc注册表,但由于ipesc注册表已被删除,以致ipsec服务不能启动 告警信息 无 处理过程 1.在运行中输入regsvr32 polstore.dll注册后,可恢复ipsec注册表项 2.右击我的电脑--管理--服务,找到ipsec服务,重启ipsec服务,此时可以恢复网络。 根因 由于虚拟机在域控策略没有完全下发成功之时发生重启操作,导致ntuser.pol文件被加密,在此启动后winlogon.exe访问策略文件ntuser.pol,并通过其修改注册表,但该文件无法识别,导致其将ipsec注册表项删除,网络无法正常工作 建议与总结 建议尽量避免再公司下发域控策略时重启win2003虚拟机。
SE_You 2024-06-1225 0 0