锐捷N18010 web-auth进程利用率被限制

关键字:

N18010、cpu、web-auth、11.0(1)B3P3、11.0(4)B58P2

一、故障现象描述

  一个多月前对设备升级,从B3P3升级到B58P2版本。老师突然发现学校监控平台通过mib节点1.3.6.1.4.1.4881.1.1.10.2.36.1.1.1.0(5秒内CPU使用率),1.3.6.1.4.1.4881.1.1.10.2.36.1.1.3.0(5分中国内CPU使用率)读取设备CPU情况显示被限制在18左右,怀疑设备锁核,达到性能上限:

  且据老师反馈,以前设备cpu总共也不会超过10%。
场景拓扑如下:

二、故障排查分析

  1.   分析什么进程达到上限:
    1. 通过命令show cpu 查看设备内存使用情况,发现多次显示结果中web-auth进程使用最高,且始终卡在12.5%:
  1.   达到上限是否是超出设备性能,或者存在锁核限制,导致cpu无法处理丢弃:
    1. 查看是否存在cpp带宽不足的情况,发现web-auth并无超cpp丢包情况:
  1.   了解cpu处理数据逻辑:
    1. 通过硬件核实,N18010共32核,可以通过show cpurule all查看设备cpu核的分布:
    1. 解释:
      1. 0-7核:为系统核,show cpu显示的就是系统核的利用情况,用于处理未绑核的部分线程,如show cpu中统计的cpu容量中,web认证有三个线程在跑,分别为和其他组件交互的lib线程,拷贝arp报文的arp线程,以及接收协议栈的net线程。
      2. 8-32核:为专用核,用于专门处理某一组件业务的cpu核,如web-auth进程专用核绑定在16-23核,用来做重定向及认证消息处理,这八个专用核使用情况不会显示在show cpu的统计回显中。
  1.   分析webauth进程cpu使用情况:
    1. 系统核:
      1. 在support模式,通过 execute diagnose-cmd hardware 1 30 ps -efF命令查看各核使用情况,可以看出web-auth在系统核上主要是用的是0核,该业务进程显示为99%:
        1. 系统核单核跑满,因此造成了上层web-auth进程达到12.5%的情况(web-auth目前未占用其他系统核,仅0核处理,若溢出则还会占用其它系统核处理)
    2. 专用核:
      1. 结果显示,16-23核使用率均在10%左右:
      2. 或者通过 execute diagnose-cmd hardware 1 30 top h查看进程:
  1.   分析webauth进程cpu升高原因:
    1. 结合背景,从B3P3版本升级到B58P2版本,导入了web认证的ipv6审计功能,只要存在ipv6业务,该进程就会占用较多CPU资源导致webauth进程升高。

三、故障根因说明

  1. 针对cpu显示上限问题:
        非设备故障,仅是linux系统内存显示算法导致
  2. 针对web进程cpu占用变多原因
        从B3P3及之前版本升级到新版本后,导入IPV6审计会占用较多CPU资源。

四、故障解决方案

无需处理。
阅读剩余
THE END