CNA节点根目录占满导致添加数据存储、虚拟机迁移等基本功能失败

问题描述

客户在给CNA节点添加数据存储时失败,在vrm的日志中看到无法写入数据库;在迁移虚拟机时,提示目标节点未准备好。
最终在查看CNA节点的系统状态时,发现根目录被占满,如下图:

告警信息

处理过程

对于根目录被占满,我们首先要定位到哪些文件比较大,定位之后还要判断这些文件是否是正常的系统文件或日志,如果不是,就可以手动删除,以释放根目录的空间。
这里通过以下的命令可以逐级查看每个目录下每个文件占用的大小:(在对应的目录下用命令:du -h --max-depth=1)

逐级目录检查,筛选出哪些目录及文件比较大,可以自己确认的,即可删除,自己确认不了,再和研发确认是否需要删除。
这里有个方法可以做一些初步诊断:
用history命令查看,客户是否执行过一些软件安装的命令,看这些安装包是否涉及到你筛选出来的文件夹及文件,如果两者吻合或相关,基本可以确认删除。
比如:我用history查到客户安装过一个netshutdown的脚本,且在我筛选出的内容里有一个netshutdown的目录占用空间很大,基本可以确认,这个软件是非法安装的,需要处理掉,释放空间

根因

根目录被占满通常有两个大的方向去排查
1. CNA系统进程真正异常,比如打印一大堆异常日志,充满整个目录
2. 客户的环境比较杂乱,比如他自己上传了一些文件,或者非法安装了一些软件,导致产生很多不受系统控制的临时文件或日志
在这个案例中,我们最终发现是客户自己安装了一些非法软件,这个软件打印的日志占用了绝大多数根目录的空间。

建议与总结

对于桌面云的系统,我们需要提醒客户,在使用过程中,不要随便安装、测试一些我们不了解的脚本或软件,否则很容易导致系统异常。
阅读剩余
THE END