-
手工释放Dom0的buffers和cached内存
问题描述 Linux主机内存利用率高,会导致进程概率性异常、业务操作超时等问题 处理过程 Dom0的业务进程进行fopen和fclose、dd等操作时,会申请内存操作,但是释放内存后,不会讲内存放入到free中,而是会放入buffers和cached中保证下次读写速度更快。正常情况下,Dom0 OS会定时将buffers和cached的内存释放到free中,但是有些异常情况就不会释放,从而导致Linux主机内存利用率高,业务操作卡主。
SE_You 2024-08-272 0 0 -
FusionCompute主机可用内存计算方法
问题描述 无 告警信息 无 处理过程 如果环境已经搭建完成,用户可以通过Fusion Compute Portal页面或者通过在主机上面输入命令xentop的方式查看主机可用内存,同计算得到的可用内存比较是否一致。 主机不开启内存复用的场景时,主机可用物理内存为: 主机剩余内存 = 主机总内存 - Dom0内存 - 黑匣子Crash内存 - xen内核Hypervisor内存 其中: 主机总内存MenTotal为主机物理内存总数 Dom0默认内存为3G Crash是主机黑匣子占用内存,默认为192M Hypervisor是xen内核占用内存,其占用内存大小为:(服务器规格内存/32)*512 例如服务器物理内存大小为72G时且主机没有开启内存复用时,可用内存大小为: 可用内存=72G-3G-(192M/1024)-(72G/32)*512M/1024 =72G-3G-0.1875G-1.125G =67.6875G 当主机开启内存复用场景时,还需要再减掉服务器规格的5%作为内存复用的缓存。 主机剩余内存 = 主机总内存MenTotal - Dom0内存 - 黑匣子Crash内存 - xen内核Hypervisor内存 – 内存复用缓存MemCache 其中: MemCache=服务器物理内存*5% 例如服务器物理内存大小为72G时且主机开启内存复用时,可用内存大小为: 可用内存=72G-3G-(192M/1024)-(72G/32)*512M/1024-72G*5% =72G-3G-0.1875G-1.125G -3.6G =64.0875G 根因 无 建议与总结 无
SE_You 2024-07-0816 0 0 -
Atlas800-9000服务器内存扩容后NPU驱动识别不到
问题描述 Atlas800-9000服务器在扩容内存后发现NPU驱动识别不到,服务器的操作系统为ubuntu20.04,服务器在扩容后进行了上下电的操作。 处理过程 1、检查NPU驱动以及芯片状态,执行npu-smi info上报模块初始化失败错误。 2、执行lspci | grep d801查看芯片是否在位,查询结果显示芯片都在位。 3. 执行uname -a查得当前操作系统内核版本为5.4.0-146 进入/boot/grub/grub.cfg 发现当前环境存在多个操作系统内核。 4、执行modinfo drv_pcie_host命令发现驱动对应的内核与当前内核不一致。 根因 该服务器操作系统存在多个内核版本,在客户扩容内存后进行重启时,操作系统会默认选择最新的内核版本,从而导致当前NPU驱动与最新的内核版本不一致,NPU无法被识别。 解决方案 1、将当前操作系统内核切换到NPU驱动对应的内核版本,并将此内核设置为默认启动项。 2、操作方法:切换到root用户后执行vim /etc/default/grub,在该文件下进行编辑,将GRUB_DEFAULT=0修改为NPU驱动对应的内核名称。 3、重新执行npu-smi info 命令发现驱动可以正常识别。 免责声明:本案例仅供参考不提供专业意见。
SE_You 2022-07-0222 0 0