-
云计算-更换VRM主节点所在服务器主板后,出现VRM与NTP服务器状态异常的处理方法
问题描述 VRM主节点所在物理服务器主板故障,更换主板后将此服务器接入FusionCompute 环境内,FusionCompute页面VRM与NTP服务器状态异常,主机与NTP服务器状态异常。 告警信息 VRM与NTP服务器状态异常 主机与NTP服务器状态异常 处理过程 分析排查: 1. 登录FusionCompute,在告警页面选中当前告警,查看“告警详细信息”中的“告警对象”。 2. 进入“系统管理”的“业务配置”页面中,选择“服务和管理节点”配置项。查看管理节点信息,获取节点名称与“告警对象”一致的管理节点的IP地址。 3. 使用“PuTTY”登录该节点。 以“gandalf”用户,通过管理IP地址登录。 4. 执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。 su - root 5. 执行以下命令,查看NTP服务状态。 ntpq -p 根据不同的回显信息,判断NTP服务状态,执行相应步骤。 • 回显包含如下信息:“ntpq: read: Connection refused”,表示本节点NTP服务异常,执行service ntp restart命令,重启NTP服务。。 • 回显信息如下:“remote”列中为“LOCAL”,表示系统没有配置上层时钟源,请联系管理员配置时钟源。 • remote refid st t when poll reach delay offset jitter • ============================================================================== *LOCAL(0) .LOCL. 5 l 32 64 377 0.000 0.000 0.001 • 回显信息如下:“remote”列中不为“LOCAL”,表示配置了上层时钟源,“reach”列如果显示为0,表示本节点与NTP服务器心跳可能中断。 • remote refid st t when poll reach delay offset jitter • ============================================================================== • *172.19.1.64 132.239.1.6 2 u 8 64 0 51.743 400.912 119.378 ……
SE_You 2024-10-1624 0 0 -
FusionCompute V100R005C00SPC100 升级补丁案例:VRM和CNA分开升级导致分发主机软件包失败
问题描述 升级目标版本为FusionCompute V100R005C00SPC100,操作人员将VRM和CNA分开执行升级操作,即先创建VRM类型的升级工程,将VRM节点升级后执行提交操作,再创建新的CNA类型的升级工程,此时对CNA节点分发软件包时在升级工具界面提示“下载补丁包失败”。 告警信息 告警ID:11312129.下载补丁包失败 处理过程 此处内容需要 回复 后才能查看 原文
SE_You 2024-09-3011 0 0 -
VRM更改数据存储失败
问题描述 运维人员登录FusionCompute Portal对VRM虚拟机进行存储迁移时上报“虚拟机的当前配置不支持基本块存储向虚拟化存储热迁移。” 告警信息 虚拟机的当前配置不支持基本块存储向虚拟化存储热迁移。 处理过程 此处内容需要 回复 后才能查看 原文
SE_You 2024-09-106 0 0 -
FusionCompute R3C00版本VRM定时备份数据库导致VRM系统自动下电
问题描述 FusionCompute R3C00 VRM主节点操作系统自动下电,业务切换到备节点 注:VRM物理部署 告警信息 部件类型: FusionCompute, 告警名称: 主备间节点心跳故障, 告警级别: 紧急, 产生时间: 2014-08-28 02:19:22 UTC+08:00, 告警对象: hghfsc005vrm 处理过程 1、FusionCompute portal出现告警,主备间节点心跳故障; 2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,如下图所示; 3、通过BMC手工上电服务器恢复; 4、清理不需要的归档日志及安装包 5、升级R3C10版本 根因 分析过程: 1、FusionCompute portal出现告警,主备间节点心跳故障; 2、登陆故障VRM所在服务器的BMC portal,发现操作系统下电,通过BMC日志可查看到下电时间; 3、通过BMC手工上电服务器恢复; 4、通过putty登陆VRM操作系统,查看/var/log/目录下对应时间点的message日志,发现系统自动下电,发送shutting down命令,相关日志信息如下图所示 5、查看/var/log/galaxenginelog/watchdog/目录下查看对应时间点的watchdog日志,发现无磁盘空间,相关信息如下: 6、通过df -h命令查看,操作系统根分区剩余空间为0,查看/tmp/ge_backup目录达到5G左右,该目录为FusionCompute备份数据的临时目录,如下图所示 7、清理/tmp/ge_backup临时目录,释放根分区空间,如下图所示 根因:FusionCompute R3C00版本备份数据库首先把数据放到/tmp/ge_backup目录下,然后再放到/var下生成压缩文件,如果根分区剩余空间小于数据库大小,会导致根分区空间被占满,系统自动下电 建议与总结 1、根据站点实际情况,调整VRM分区大小 2、调整临时目录到其他分区,FusionCompute R3C10版本已经将临时目录调整到/var下
SE_You 2024-07-2524 0 0 -
云计算VRM PORTAL不支持西班牙语环境的解决方法
问题描述 完成桌面云FC基础设置安装之后,通过IE登录VRM portal,发现浏览器不能正常显示,为一片空白 告警信息 无 处理过程 打开控制面板->区域和语言,在“格式”界面,选择“ENGLISH(US)”;在“管理”界面,选择“更改系统区域设置”为“ENGLISH(US)” 根因 在IE游览器上,VRM portal发送http request申请登入界面时,VRM会自动查看客户端的系统语言来定位,反馈英语或中文界面。 因为西班牙语不在他们的 判断里 所以无法提供登入界面(显示空白)。 建议与总结 临时规避措施,产品设计时,需要考虑到多语言的支持
SE_You 2024-07-179 0 0 -
安装VRM时配置主机失败
问题描述 RH2288服务器上连CISCO 3750交换机,在服务器通过FusionCompute安装向导安装VRM时在配置主机时显示配置主机失败。 1.1.1.10是服务器的管理接口IP地址,此时从本地PC ping 1.1.1.10 开始丢包,配置主机进度到55%左右显示配置主机失败。 告警信息 FusionCompute安装向导工具显示:配置主机失败 处理过程 处理过程: 1、进入连接服务器管理网口的思科交换机端口,开启portfast模式,思科交换机将跳过状态转变过程,收到BPDU后直接进入learning状态,并进入转发状态。 Interface G0/0/1 Spanning Portfast 2、此时从本地Ping 1.1.1.10服务器管理网口,只有短暂的丢包。配置主机项检查通过。 根因 1、在配置主机时,FusionCompute安装向导会导入DVS虚拟交换机,到导入虚拟机交换机时虚拟机交换机会向上行链路发出BPDU,当思科交换机收到BPDU消息后会将与上行链路连接的思科交换机端口状态置为blocking 状态,此时接口处于不转发数据包状态,经过50S后的状态转变,思科交换机端口转变为转发状态。 2、在50S的不转发过程中FusionCompute installtool会检测到主机业务接口的连通性,FusionCompute installTools系统内检测连通性检测阈值小于50秒,造成配置主机失败提示。 建议与总结 在上连思科交换机时关闭spanningtree功能,防止交换机端口因为生成树导致的状态转变。
SE_You 2024-07-1649 0 0 -
FusionCompute产品安装VRM失败
问题描述 某FusionCompute R3C00局点反馈安装VRM时,安装工具上报安装控件失败。 告警信息 无 处理过程 1. 分析日志,发现在初始化pgsql数据库时,lc_monetary参数错误,导致data目录未生成,请看面的截图: 2. 从上面的错误截图可知,经确认,lc_monetary参数值为繁体中文,跟现场工程师确认,现场安装VRM使用的PC安装了繁体中文语言包,lc_monetary参数被修改为繁体中文,由于pgsql不支持lc_monetary参数为繁体中文,所以安装工具报错。 【规避方案】: 解压安装包中的FusionCompute V100R003C00SPC300_Tools\Installer\CloudComponents\bin.zip 文件。 修改 bin.zip\bin\lib\start_pgsql.bat 为: %pgsql_dir%\%initdb% -U galax -D %pgsql_dir%\%data_dir% -E %encoding% --locale="Chinese (Simplified)_People's Republic of China.936" 【解决方案】: 虽然此问题是由于pgsql的bug导致,但是由于pgsql是开源代码,已经给产品提单,安装工具规避pgsql的bug。 根因 无 建议与总结 在现场安装时如果遇到此问题,可以通过修改安装脚本或者使用纯英文的安装环境来规避此问题。
SE_You 2024-07-049 0 0