FusionCompute FCSAN场景的存储虚拟化集群安全重启主机异常

问题描述

操作
a. 存储使用FCSAN设备,并且启用存储虚拟化特性
b. 安全重启存储虚拟化集群的某一主机
现象
a. 重启的主机异常卡死
b. 在其他主机启动虚拟机失败,失败原因为挂卷超时

c. 虚拟机HA任务进度在70%

告警信息

处理过程

1. FCSAN+存储虚拟化场景下,重启主机建议从BMC强制关机或者下电,而非安全关机、安全下电或者调用reboot命令。
2. 升级FusionCompute版本至V100R003C10SPC500以上版本。

根因

1. 对主机进行reboot或halt时,OS会按照:关闭管理和业务进程->逐个关闭虚拟机->卸载数据存储->关闭网络和存储服务->卸载文件系统->关闭主机。
2. 基于以上处理逻辑,在卸载数据存储时,由于vnd进程最早被关闭,因此导致虚拟机使用的内存交换设备一直存在,从而导致数据存储umount失败。
3. 在FCSAN场景下,关闭网络时,只能中断管理面,而存储面则一直畅通,从而导致UVP进入“存储断链”的处理逻辑:一直尝试通知vims集群内的其它节点,但此时管理面已经中断,故一直无法通知成功,从而造成主机reboot卡住。
4. 上述场景下,存储虚拟化集群会通过一定的算法找出一个节点并退出集群(重启该节点)。

建议与总结

阅读剩余
THE END