-
FusionCompute主机可用内存计算方法
问题描述 无 告警信息 无 处理过程 如果环境已经搭建完成,用户可以通过Fusion Compute Portal页面或者通过在主机上面输入命令xentop的方式查看主机可用内存,同计算得到的可用内存比较是否一致。 主机不开启内存复用的场景时,主机可用物理内存为: 主机剩余内存 = 主机总内存 - Dom0内存 - 黑匣子Crash内存 - xen内核Hypervisor内存 其中: 主机总内存MenTotal为主机物理内存总数 Dom0默认内存为3G Crash是主机黑匣子占用内存,默认为192M Hypervisor是xen内核占用内存,其占用内存大小为:(服务器规格内存/32)*512 例如服务器物理内存大小为72G时且主机没有开启内存复用时,可用内存大小为: 可用内存=72G-3G-(192M/1024)-(72G/32)*512M/1024 =72G-3G-0.1875G-1.125G =67.6875G 当主机开启内存复用场景时,还需要再减掉服务器规格的5%作为内存复用的缓存。 主机剩余内存 = 主机总内存MenTotal - Dom0内存 - 黑匣子Crash内存 - xen内核Hypervisor内存 – 内存复用缓存MemCache 其中: MemCache=服务器物理内存*5% 例如服务器物理内存大小为72G时且主机开启内存复用时,可用内存大小为: 可用内存=72G-3G-(192M/1024)-(72G/32)*512M/1024-72G*5% =72G-3G-0.1875G-1.125G -3.6G =64.0875G 根因 无 建议与总结 无
SE_You 2024-07-0816 0 0 -
虚拟机创建过快照导致解绑定磁盘失败
问题描述 虚拟机操作系统故障,已经分配了新的虚拟机,将故障虚拟机的数据磁盘解绑定时,提示存在快照,导致无法解绑定磁盘。 告警信息 解绑定磁盘时,提示虚拟机存在快照。 处理过程 1. 通过“监控”->“备份”,找到之前虚拟机创建快照的ID号。 2. 主备份服务器上,使用Admin账号(或通过VNC使用ssh Admin@127.0.0.1)登录命令行,切换到monitor模式。 3. 执行删除快照命令(delete snapshot snapshot_id=快照ID)。 4. 待快照删除后,解绑定磁盘。 根因 虚拟机之前通过HyperDP做过备份,怀疑备份类型为“快照比对”,导致虚拟机会一直保留一个快照。FusionCompute无法直接删除该快照,需要通过HyperDP备份服务器下发删除命令。 说明: “CBT备份” 方式,使用该备份方式,在虚拟机没有备份任务运行时,该虚拟机不需要保留备份快照。 “快照比对” 方式,使用该备份方式,在虚拟机没有备份任务运行时,该虚拟机也需要保留一个备份快照,对非备份期间虚拟机的性能影响较大。 建议与总结 无。
SE_You 2024-07-0510 0 0 -
FusionCompute产品安装VRM失败
问题描述 某FusionCompute R3C00局点反馈安装VRM时,安装工具上报安装控件失败。 告警信息 无 处理过程 1. 分析日志,发现在初始化pgsql数据库时,lc_monetary参数错误,导致data目录未生成,请看面的截图: 2. 从上面的错误截图可知,经确认,lc_monetary参数值为繁体中文,跟现场工程师确认,现场安装VRM使用的PC安装了繁体中文语言包,lc_monetary参数被修改为繁体中文,由于pgsql不支持lc_monetary参数为繁体中文,所以安装工具报错。 【规避方案】: 解压安装包中的FusionCompute V100R003C00SPC300_Tools\Installer\CloudComponents\bin.zip 文件。 修改 bin.zip\bin\lib\start_pgsql.bat 为: %pgsql_dir%\%initdb% -U galax -D %pgsql_dir%\%data_dir% -E %encoding% --locale="Chinese (Simplified)_People's Republic of China.936" 【解决方案】: 虽然此问题是由于pgsql的bug导致,但是由于pgsql是开源代码,已经给产品提单,安装工具规避pgsql的bug。 根因 无 建议与总结 在现场安装时如果遇到此问题,可以通过修改安装脚本或者使用纯英文的安装环境来规避此问题。
SE_You 2024-07-049 0 0 -
FusionCompute主机关联存储资源出错
问题描述 系统版本:FusionCompute R3C00SPC300 故障现象: 登陆FusionCompute portal,选择“主机和集群”选择对应主机,查看“配置”——“存储资源”,选择对应存储,点击同步会话“同步会话”,提示失败,如下图所示 网络拓扑: 说明: 1)该主机存储平面对应VLAN如下:172.20.x.x——VLAN 420,172.30.x.x——VLAN 421,172.40.x.x——VLAN 422,172.50.x.x——VLAN 423; 2)接入层两台S6724做堆叠配置; 3)VLAN420-421对应流量上行到S9712A,VLAN422-423对应流量上行到S9712B,管理、计算柜接入交换机通过配置smart-link实现; 告警信息 无 处理过程 1、通过ping对应的存储业务IP地址:172.40.74.89,172.40.74.90,172.50.74.89,172.50.74.90排查网络连通性,结果如下: 1)S9712到存储的连通性——ok 2)管理、计算柜接入交换机到S9712连通性——无法ping通 2、登陆管理、计算柜对应的接入交换机,查看相关配置,发现smarl-link配置错误,对应的instance10未添加VLAN422-423; 3、查看对应S9712的端口配置正常; 4、登陆对应交换机,参考如下命令,配置instance10 操作步骤如下: 1)执行命令system-view,进入系统视图。 2)执行命令stp region-configuration,进入MST域视图。 3)执行命令 instance 10 vlan 418 to 419 422-423配置实例和VLAN的映射关系。 4)执行命令active region-configuration,激活MST域的配置。 5)执行命令quit,返回系统视图。 6)测试对应连通性ok 5、登陆FusionCompute portal,选择“主机和集群”选择对应主机,查看“配置”——“存储资源”,选择对应存储,点击 “同步会话”,操作成功,主机存储链路配置正常。 根因 1、使用“PuTTY”,登录主机。以“gandalf”用户,通过管理IP地址登录。执行以下su - root命令,并按提示输入“root”用户的密码,切换至“root”用户。执行TMOUT=0命令,防止“P……
SE_You 2024-07-0317 0 0 -
SingleCLOUD V100R002 & FusionCompute V100R003 如何通过调用ESC北向接口使得安全组外设备ping通安全组虚拟机
问题描述 安全组外的设备无法ping通安全组内的虚拟机 告警信息 无 处理过程 正确调用ESC模块的北向接口开通ping安全组内虚拟机权限。 根因 默认情况下安全组内的虚拟机之间可以相互访问,但因安全组外的虚拟机或者物理设备是无法访问和ping通安全组内虚拟机的,在FusionComputeV100R003/V100R002版本中ESC模块提供了北向接口,上层应用诸如CSB、ManageOne等可以通过调用相应的北向接口开通安全组外设备对组内虚拟机的访问权限和ping权限。 该接口以SOAP形式提供,名称为AuthorizeSecurityGroupIngress,标签userId和groupName表示用户名和要开通被ping权限的安全组名,由于ping操作是基于ICMP协议控制,所以协议标签ipProtocol选择ICMP,fromPort和toPort标签都选择-1。 cidrIp标签表示要对哪些外部设备或者虚拟机开放ping权限,即ping的源头,须采用cidr格式即ip地址 + 斜杠 + 掩码,否则ESC的校验会报错,192.168.1.0/24表示从192.168.1.0到192.168.1.255带有这些地址的外部设备可以ping通jing_sg安全组内的虚拟机了。如下为放开ping权限的soap消息示例: 建议与总结 标签ipProtocol填写不同协议可以实现开通其他权限,比如远程访问安全组内虚拟机等,具体可以参考ESC北向接口详细说明。
SE_You 2024-07-0228 0 0 -
FusionCompute产品CNA节点重启问题
问题描述 某服务器虚拟化局点采用RH5885服务器作为CNA节点,两台CNA节点发生重启。 告警信息 无 处理过程 分别收集两台CNA的message日志分析,message日志显示现网2台CNA分别在15:38和19:50左右出现了异常重启。 1. 分析19:50重启后生成dump的文件,从dump信息看该节点重启原因为系统lpfc驱动异常触发。 2. 15:38分重启原因从串口日志中可以看出同样是由于lpfc驱动异常导致。 现网FusionSphere版本为R3C00SPC200,lpfc驱动版本为8.3.5.48.3p,经研发确认该版本驱动小概率异常情况下会导致服务器重启。FusionCompute R3C00SPC300版本已经修复该问题(驱动lpfc升级为8.3.7.18版本),现网升级到FusionCompute R3C00SPC300版本后问题解决。 根因 对于服务器重启问题,需要通过操作系统message日志和dump日志来分析问题原因。 建议与总结 针对RH5885服务器的lpfc驱动问题在已发布的FusionAdaptor版本修复,并在FusionCompute R3C00SPC300及R3C10版本合入,考虑到在FusionCompute R3C00SPC200使用RH5885的局点很少,且均已完成FusionAdaptor补丁安装。后续的新局点使用FusionCompute R3C00SPC300及R3C10版本交付。
SE_You 2024-07-0145 0 0 -
winscp版本较旧不能接入fusioncompute v1r3c01spc500的VRM
问题描述 FusionCompute V100R003C10SPC500版本中用winscp登录VRM时报错 告警信息 无 处理过程 在www.winscp.net官网上下载最新版本的winscp软件接入VRM,能正常接入。 根因 FusionCompute V100R003C10SPC500 进行了安全级别的提示,在用SSH登录时用了更严格的加密方式。 现场使用的winscp版本较旧不支持。 建议与总结 无
SE_You 2024-06-2817 0 0 -
FusionCompute R3C0版本虚拟机操作系统启动时通过VNC登陆白屏
问题描述 桌面云系统,用户发现虚拟机无法通过WI登陆,维护人员从FusionCompute界面通过VNC登陆时,发现虚拟机白屏。 如下图所示 告警信息 无告警信息 处理过程 1, 根据出现该现象的用户反馈,这些用户都是之前有过将操作系统关机,而不是直接将操作系统重启的。 2, 同时该问题出现后,只要等待一段时间,大约1到4个小时左右,系统就能自动恢复。 3, 出现该问题的用户,普遍反馈在系统恢复后,可以看到操作系统提示更新成功。 根据以上几条现象,很可能系统在白屏的时候,只是看不到界面,实际上当时操作系统在更新补丁。 根据windows更新机制,当发现有新的补丁时,如果用户没有手动更新,那么在系统关机时会下载补丁,而在下次开机时,会更新补丁并应用,所以这里耗时较长。 至于为何在更新补丁时,看到的上图的白屏界面。在桌面云的操作系统中,集成了“桌面云用户体验优化工具”,而在该工具中,有一个选项是“禁用开机动画”, 如果将此项勾选,那么就是说windows在启动过程中,看不到开机动画,所以出现上面的白屏界面 后将该选项去勾选后,下次更新补丁启动过程中,发现可以正常看到启动界面了。 根因 由于只有部分虚拟机有该问题,无有效日志,所以无法直接分析可能产生的原因,只能根据共性来定位根因。 建议与总结 桌面云的很多问题,实际上是和windows相关,处理很多问题时,都需要从windows方面入手。
SE_You 2024-06-2744 0 0 -
在Fusioncompute上修改存储多路径类型失败的处理方法
问题描述 在完成Fusioncompute安装后,系统默认的类型为通用,需要修改为华为存储,在Fusioncompute上修改存储多路径类型失败。提示主机上存在虚拟机,不允许当前操作。 告警信息 提示主机上存在虚拟机,不允许当前操作。 处理过程 1.通过VNC登录备VRM虚拟机,使用root账号登录,关闭备VRM虚拟机,不能通过FusionCompute的管理界面关闭VRM虚拟机。 2.在FusionCompute上通过正常操作,完成存储类型修改,CNA节点自动重启。 3.等该CNA节点重启完成后,开启备VRM。 4.通过VNC登录主VRM虚拟机,使用root账号登录,关闭主VRM虚拟机。 5.待VRM业务切换后,登录FusionCompute,完成存储类型修改,CNA节点自动重启。 6.等该CNA节点重启完成后,开启主VRM。 根因 1.因为该CNA节点为管理集群虚拟机,VRM虚拟机安装在本地磁盘上,CNA节点上存在虚拟机,无法修改存储类型。 2.因为VRM虚拟机安装在本地磁盘上,因此,不能够迁移虚拟机。 3.解决的方法是先强制关闭备用VRM虚拟机后,完成该节点的修改存储类型操作,然后开启备VRM。再关闭主VRM的虚拟机,完成对应CNA节点的修改存储类型操作,再开启主VRM。 建议与总结 无
SE_You 2024-06-2635 0 0 -
CNA节点根目录占满导致添加数据存储、虚拟机迁移等基本功能失败
问题描述 客户在给CNA节点添加数据存储时失败,在vrm的日志中看到无法写入数据库;在迁移虚拟机时,提示目标节点未准备好。 最终在查看CNA节点的系统状态时,发现根目录被占满,如下图: 告警信息 无 处理过程 对于根目录被占满,我们首先要定位到哪些文件比较大,定位之后还要判断这些文件是否是正常的系统文件或日志,如果不是,就可以手动删除,以释放根目录的空间。 这里通过以下的命令可以逐级查看每个目录下每个文件占用的大小:(在对应的目录下用命令:du -h --max-depth=1) 逐级目录检查,筛选出哪些目录及文件比较大,可以自己确认的,即可删除,自己确认不了,再和研发确认是否需要删除。 这里有个方法可以做一些初步诊断: 用history命令查看,客户是否执行过一些软件安装的命令,看这些安装包是否涉及到你筛选出来的文件夹及文件,如果两者吻合或相关,基本可以确认删除。 比如:我用history查到客户安装过一个netshutdown的脚本,且在我筛选出的内容里有一个netshutdown的目录占用空间很大,基本可以确认,这个软件是非法安装的,需要处理掉,释放空间 根因 根目录被占满通常有两个大的方向去排查 1. CNA系统进程真正异常,比如打印一大堆异常日志,充满整个目录 2. 客户的环境比较杂乱,比如他自己上传了一些文件,或者非法安装了一些软件,导致产生很多不受系统控制的临时文件或日志 在这个案例中,我们最终发现是客户自己安装了一些非法软件,这个软件打印的日志占用了绝大多数根目录的空间。 建议与总结 对于桌面云的系统,我们需要提醒客户,在使用过程中,不要随便安装、测试一些我们不了解的脚本或软件,否则很容易导致系统异常。
SE_You 2024-06-2527 0 0
升级版本
评论于 华为2288h v5 对iBMC上报Nand Flash预留块不足10%告警的说明