-
FusionComputer同一网段两台虚拟机能够PING通,不能SSH到对方的故障处理案例
问题描述 FusionCompute创建两个分布在不同CAN上的管理平面虚拟机,互相能够PING通,也能SSH到对方,切换虚拟机端口组到业务平面端口组(两个虚拟机使用同一端口组),互相能够PING通,不能SSH到对方。 服务器:E9K 网卡:MZ510扣卡 BE3 10GE网卡 版本:FusionSphereR3C00SPC300 告警信息 FusionCompute同一网段两台虚拟机能够PING通,在业务网络不能SSH到对方,但在管理网络能够互相ssh对方 处理过程 1. 1. 查看虚拟机上SSH服务是否启动:ps –ef | grep ssh 结果:正常 2. 2. 查看虚拟机ssh端口是否正常: netstat –alt 3. 将虚拟机上iptables规则全部清空:iptables –F 结果:虚拟机仍然不能SSH到对方 4. 将虚拟机的pv-driver卸载 结果:虚拟机能SSH到对方 5. 安装虚拟机pv-driver,将两台虚拟机迁移到同一主机上 结果:虚拟机然SSH到对方 步骤5与局点现象相比,差异点是数据包一个不出CAN,一个出CAN,因此怀疑可能网卡驱动存在问题 6. 查看网卡驱动版本: ethtool –i eth0 linux-JyRAav:/home/GalaX8800 # ethtool -i eth0 driver: be2net version: 4.1.402.6 firmware-version: 4.4.262.3 bus-info: 0000:02:00.0 supports-statistics: yes supports-test: yes supports-eeprom-access: yes supports-register-dump: no发现be2net网卡驱动版本与固件版本不一致,此前在山西孝义局点出现过版本不一致导致创建虚拟机慢(经分析是存储面丢包) 根因 Be2net网卡驱动版本与固件版本不一致的情况下,会出现各种网络问题(比如丢包,收发带有vlan标签的数据包时有时剥离vlan标签,有时不剥离)。 建议与总结 升级主机domain0的网卡驱动版本,与微码版本保持一致。 具体升级办法: 此处内容需要 回复 后才能查看
SE_You 2024-07-236 0 0 -
虚拟化无法登陆FusionComputer
问题描述 VRM采取本地主备部署,部署完需要用命令切换多路径并重启主机,所在主机关闭后,VRM浮动IP中断,主节点物理IP中断,备节点物理IP正常,但不提供服务。无法登陆FusionComputer。 告警信息 无 处理过程 添加多个仲裁IP,第一个建议设置为网关, 另外两个建议设置为与管理平面互通的全局服务器的IP地址,如AD域服务器、DNS服务器等。 根因 本次部署配置仲裁IP为网关,仲裁IP暂时不可用,VRM主备切换需要仲裁IP,否则无法切换,导致服务中断。 建议与总结 无
SE_You 2024-07-2216 0 0 -
虚拟化平台物理交换机VLAN配置错误导致FusionCompute网络通信异常
问题描述 虚拟化平台搭建完成后,在FusionCompute上部署业务虚拟机,为其配置IP及网关地址,测试网络时无法ping通网关地址。 告警信息 无 处理过程 1、在FusionCompute上确认分布式虚拟交换机端口绑定是否有错误,确认无错误; 2、检查S5700物理交换机端口的配置,发现对应端口没有配置好VLAN信息; 3、修改S5700物理交换机对应端口配置: undo port hybrid vlan 1 port hybrid tagged vlan X(业务VLAN号) 4、再次进行ping网关地址测试,问题解决。 根因 同一网段IP地址无法ping通,可能得原因为: 1、分布式交换机业务平面绑定端口错误; 2、物理交换机S5700对应端口或VLAN配置错误。 建议与总结 虚拟平台基于物理平台完成网络通信,搭建虚拟平台前要确保物理交换机配置正确。
SE_You 2024-07-1911 0 0 -
FusionCompute R3C0版本一个CNA节点faulty, no bootable deivce
问题描述 某局点客户反馈一个其中一个CNA节点在运行一段时间后,状态变为faulty,无法启动,该CNA上的VRM也无法启动。 该局点有多个CNA,均已经运行一段时间,其中两个VRM分别在CNA01和CNA02上,现在CNA02无法启动,状态为faulty。 通过imana登陆,发现该CNA节点启动时,卡在如下界面,提示there is no bootable device 告警信息 System will auto reboot for there is no bootable device 处理过程 根据以上原因分析,首先从最简单的开始排查,进入BIOS检查启动顺序,发现硬盘启动在boot priority中不是first。 将硬盘启动修改为first boot priority后,重启服务器,操作系统启动正常,该CNA上的所有虚拟机均恢复。 根因 服务器操作系统启动时,由于CNA应该要从硬盘启动,根据提示there is no bootable device,说明启动时找不到启动设备,这种情况一般有三种可能原因: 1, 服务器的硬盘或者raid卡物理损坏 2, 硬盘上启动信息丢失 3, 启动顺序被修改 建议与总结 CNA安装完成后,需要确保硬盘为第一启动顺序。
SE_You 2024-07-1810 0 0 -
云计算VRM PORTAL不支持西班牙语环境的解决方法
问题描述 完成桌面云FC基础设置安装之后,通过IE登录VRM portal,发现浏览器不能正常显示,为一片空白 告警信息 无 处理过程 打开控制面板->区域和语言,在“格式”界面,选择“ENGLISH(US)”;在“管理”界面,选择“更改系统区域设置”为“ENGLISH(US)” 根因 在IE游览器上,VRM portal发送http request申请登入界面时,VRM会自动查看客户端的系统语言来定位,反馈英语或中文界面。 因为西班牙语不在他们的 判断里 所以无法提供登入界面(显示空白)。 建议与总结 临时规避措施,产品设计时,需要考虑到多语言的支持
SE_You 2024-07-179 0 0 -
安装VRM时配置主机失败
问题描述 RH2288服务器上连CISCO 3750交换机,在服务器通过FusionCompute安装向导安装VRM时在配置主机时显示配置主机失败。 1.1.1.10是服务器的管理接口IP地址,此时从本地PC ping 1.1.1.10 开始丢包,配置主机进度到55%左右显示配置主机失败。 告警信息 FusionCompute安装向导工具显示:配置主机失败 处理过程 处理过程: 1、进入连接服务器管理网口的思科交换机端口,开启portfast模式,思科交换机将跳过状态转变过程,收到BPDU后直接进入learning状态,并进入转发状态。 Interface G0/0/1 Spanning Portfast 2、此时从本地Ping 1.1.1.10服务器管理网口,只有短暂的丢包。配置主机项检查通过。 根因 1、在配置主机时,FusionCompute安装向导会导入DVS虚拟交换机,到导入虚拟机交换机时虚拟机交换机会向上行链路发出BPDU,当思科交换机收到BPDU消息后会将与上行链路连接的思科交换机端口状态置为blocking 状态,此时接口处于不转发数据包状态,经过50S后的状态转变,思科交换机端口转变为转发状态。 2、在50S的不转发过程中FusionCompute installtool会检测到主机业务接口的连通性,FusionCompute installTools系统内检测连通性检测阈值小于50秒,造成配置主机失败提示。 建议与总结 在上连思科交换机时关闭spanningtree功能,防止交换机端口因为生成树导致的状态转变。
SE_You 2024-07-1652 0 0 -
物理光驱中存在CD的服务器上通过虚拟光驱安装FusionCompute系统时失败
问题描述 某局点通过虚拟光驱挂载ISO的方式安装FusionCompute,安装失败,报错如下所示。局点管理员描述该服务器的物理光驱中存在CD。 ... /mnt/miniOS/cfg/all is not exist Load config file error. Load install directory error. ... 告警信息 无 处理过程 方法一 取出物理光驱中的CD后再重新安装FusionCompute。 方法二 对于硬盘组RAID的场景,也可以通过修改BIOS设置的规避方法来完成安装,以华为RH2285 V2服务器为例进行说明。 (1) 重启服务器,按组合键“ctrl+alt+1”,进入BIOS高级选项。 (2) 在BIOS界面中选择“Advanced”中的“IDE Configuration”,并按下回车键,将“IDE Controller”配置项设置为 “Disabled”。如图2所示。 图2 BIOS设置 (3) 按F10保存退出,重新安装FusionCompute。 根因 通过光盘安装FusionCompute系统时,在安装过程需要从光盘中读取文件完成安装,而FusionCompute默认从第一个光盘中读取文件。 该环境中由于物理光驱中有光盘,而虚拟光驱中又挂载了FusionCompute的ISO,所以安装时系统可以识别到两个光盘,如图1所示。 图1 光驱 图1中第一个光盘/dev/sr0是物理光驱中的,第二个光盘/dev/sr1才是虚拟光驱中的,FusionCompute安装时默认从/dev/sr0中读取文件,无法读取到FusionCompute的安装文件,最终导致安装失败。 建议与总结 安装FusionCompute系统时,物理光驱和虚拟光驱不要同时使用。
SE_You 2024-07-1520 0 0 -
CNA节点启动时重复显示“loading windows file”
问题描述 某CNA节点在运行了一段长时间之后,重启后无法进入系统,启动界面一直停留在"loading windows file...",多次重启仍然无法正常进入。 告警信息 无 处理过程 更改服务器BIOS的启动顺序,让从硬盘启动在从网络启动之前。 根因 出现该问题的可能原因如下: 1) 服务器被重装成windows操作系统,原系统盘数据被覆盖。 2)系统盘数据没有问题,但系统未从硬盘引导进入操作系统,而是从其它介质引导。 局点维护人员未对服务器做过重装性质的操作,服务器已经运行了很长一段时间后重启无法进入系统。因此排查服务器的BIOS配置,发现在启动顺序上从PXE网络启动在硬盘启动之前,并且PXE服务器里引用了一个windows系统的映像。 建议与总结 CNA节点重启无法进入系统,如果已经过了系统的引导,那么一般是异常掉电引起的系统数据不一致,需要进行fsck的修复。 本案例显示从windows启动,可能是系统被重装了,或是从其它介质启动,通过BIOS排查启动顺序可解决问题。
SE_You 2024-07-1213 0 0 -
FusionCompute如何处理执行系统命令时报“segmentation fault”
问题描述 1) 运维人员在linux系统执行系统命令时系统报“Segmentation fault”,如下为执行last reboot命令时的系统回显。 2) 查看该节点的系统message日志,发现存在大量“segfault”的异常打印。 告警信息 无 处理过程 若明确那个具体文件被修改,可从同类型操作系统中拷贝对应的文件恢复(须保持 文件权限一致)。 若不明确修改的文件,须对该节点进行重新安装恢复 根因 分析发现该系统/usr/bin目录下部分文件有最近更新的情况,且最后修改时间晚于系统安装时间。(通常该目录下的文件为系统文件) 对LINUX系统对系统文件,如/usr/bin目录下文件执行“dos2unix *”命令后就会造成其他系统命令使用异常的情况。 建议与总结 对2进制文件执行“dos2unix”之后会影响该文件功能,用户以root权限在linux系统执行rm,dos2unix等命令时必须明确含义及其作用域。
SE_You 2024-07-1140 0 0 -
如何处理数据存储空间占满导致虚拟机蓝屏问题
问题描述 虚拟机启动时出现蓝屏现象,如下所示: 告警信息 FusionCompute Portal界面上报“存储使用容量超过阈值”告警,告警ID为15.1005003,附加信息显示该数据存储占用率为100%。 处理过程 1) 对使用率占满数据存储上的虚拟机通过存储迁移,释放相应空间。 2) 将使用率占满数据存储上的不用虚拟机删除,释放空间。 根因 虚拟机所用存储类型为虚拟化数据存储,支持精简配置,该数据存储创建了大量虚拟机快照,当数据存储的已分配容量大于总容量时如果实际可用容量耗尽,则后续IO将无法分配到空间,虚拟机启动时概率性引起虚拟机卡死或蓝屏。 建议与总结 无
SE_You 2024-07-1021 0 0