系统平均负载

图片 11

uptime

    uptime命令功能比较简单,主要功能如下所示:

  • 查看服务器的开机时长
  • 查看CPU负载

基本用法

uptime

用法示例

[root@localhost ~]# uptime
15:33:08 up 10 days,  4:40,  2 users,  load average: 1.56, 1.22, 0.92

输出内容解释如下所示:

显示内容 解释
15:33:08 系统当前时间
up 10 days, 4:40 主机已运行时间,时间越长,说明机器越稳定
2 users 用户连接数,是总连接数而不是用户数
load average: 1.56, 1.22, 0.92 系统平均负载,统计最近1、5、15分钟的系统平均负载

系统平均负载:指在某一段时间间隔内运行队列中的平均进程数。根据实际工程经验来看,单核负载在
0.7 以下是安全的,如超过则需要进行优化了。

除了使用uptime外,我们也可以使用以下方式来获取系统的平均负载情况。

[root@localhost ~]# cat /proc/loadavg
1.32 1.35 1.15 1/5585 28715
  • 前面3个数字分别表示最近1、5、15分钟的系统平均负载
  • 1/5585:分母表示系统的总进程数,分子表示正在运行的进程数
  • 28715:最近一个启动运行进程的ID

free

    free常用来查看系统的可用内存和已使用内存等信息。

基本用法

free [选项]

常用选项如下所示:

选项 解释
-b 以byte为单位显示内存使用情况
-k 以KB为单位显示内存使用情况
-m 以MB为单位显示内存使用情况
-g 以GB为单位显示内存使用情况
-t 额外显示内存总和
-h 以较短的数字(默认为3位数)进行显示且增加单位,方便查看
-s time 持续观察内存使用情况
-c count 常与-s一直使用,用来设置采样样本数
-l 详细显示高峰和低谷时的内存使用统计情况
采用-k/-m/-g/-h显示的值均采用向下取整的方式显示,如果需要精确查看,则建议使用-b

用法示例

1、显示主机内存使用情况

[root@localhost ~]# free -t -m
      total        used        free      shared  buff/cache   available
Mem:  128652       32106       87049     1293      9496       94266
Swap: 4095           0         4095
Total:132748       32106       91145

输出内解释如下所示:

total:可用物理内存总量
used:已经使用的内存数,包含buff/cache
free:可使用的内存数,不含buff/cache
share:多个进程共享的内存数
buff/cache:buff/cache占用量
Swap:交换分区使用量,虚拟内存
Total:物理内存总数

vmstat

    vmstat是一个Linux监控工具,全称为Virtual Memory
Statistics
。可用于查看关于进程、内存、I/O、等系统整体运行状态。

基本用法

vmstat [选项] [采样间隔] [采样样本数]

常用选项如下所示:

选项 解释
-a 显示活动/非活动的内存信息
-f 显示自系统启动以来的系统创建的总任务数
-t 增加时间戳
-m 显示slabinfo信息
-n 头部信息仅显示一次
-s 以表格形式显示内存指标及系统事件信息等
-d 显示各磁盘的统计信息
-p 显示特定分区的详细统计信息
delay 设置两次更新之间的时间间隔,如果不指定,则默认显示从开机到现在的平均值
count 指定采样的样本数,如delay指定而count不指定则一直持续监控和输出

用法示例

1、常用用法

vmstat delay count
- delay:采样时间间隔
- count:采样的样本数

图片 1

2、查看服务器创建了多少个任务数

[root@localhost ~]# vmstat -f
     51221915 forks

3、显示特定分区的统计信息:

[root@localhost ~]# vmstat -p /dev/sdb1
sdb1          reads   read sectors  writes    requested writes
               754      35990         81      22102

结果分析

   
对于vmstat出来的统计结果,如何判定是否存在问题了?不同的服务器、操作系统、应用场景等均不一样,也无法给出统一的判断标准,需要大家根据实际情况进行综合判断。以下是一些实际应用中的经验,仅供参考:

  • 1、如果cache的值比较大,则说明系统缓存了比较多的磁盘数据,有利于磁盘I/O性能的提升,此时,bi会相对较小,因为很多读写磁盘的操作都由cache来承担了。
  • 2、si和so则代表读写SWAP的数量,这两个值如果长期大于0,则表示系统需要经常读写交换分区,这样会消耗CPU资源和磁盘I/O性能。如能确定物理内存存在瓶颈,则需要进行扩容或迁移了。
  • 3、如free的值很低,基于接近于0,也不一定就是系统内存已经耗尽,还需要结合buffer和cache的使用量,如果buffer和cache占用了很多内存资源,则代表没有问题,说明系统把空闲的内存都用于缓存,反而是提升了I/O性能,当系统需要内存时,buffer和cache可以随时被回收回来。
  • 4、如果bi和bo值很大,则说明系统正在进行大量的磁盘读写操作。如果是用户正在进行的操作,则没有问题,否则需要进行排查哪个设备或分区在进行大量读写操作。
  • 5、如果us的值经常大于50%,则说明用户进程占用的CPU时间比较多,需要对占用较多的程序进行排查和优化了。
  • 6、如果sy值比较高,需要排查系统是否存在问题。
  • 7、如果wa值比较高,则说明CPU总是在等待I/O操作,说明磁盘已经成为瓶颈,需要排查磁盘是否存在问题或优化程序的读写操作
  • 8、如果r值总是超过CPU核数,则说明CPU可能成为瓶颈,可考核升级CPU等

mpstat

    mpstat全称Multiprocessor
statistics
,也是一个监控工具,主要对象是CPU。

基本用法

mpstat [选项] [采样间隔] [采样样本数]

常用选项如下所示:

选项 解释
-I 显示中断统计信息
-P 显示指定CPU编号的统计信息,0为第一个CPU
-u 显示CPU的使用情况
-A 等同于-u -I ALL -P ALL
与-I一起使用的参数如下所示
- SUM:显示所有CPU中断次数之和
- CPU:显示每个CPU中断次数
- ALL:将SUM和CPU的内容一起显示

与-P一起使用的参数如下所示
- ON:仅统计在线的CPU使用情况
- ALL:统计所有CPU的使用情况

CPU常用指标

    该指标一般是使用选项-u出来的统计结果,如下所示:

指标 解释
CPU CPU编号
%usr 用户进程所使用的CPU占比
%nice 对进程进行降级时的CPU占比
%sys 内核进行使用的CPU占比
%iowait 空闲态中等待I/O请求所使用的CPU占比
%irq 处理系统中断所使用的CPU占比
%soft 软件中断所使用的CPU占比
%steal 虚拟管理程序所使用的CPU占比
%guest 运行虚拟处理器所使用的CPU占比
%gnice 运行降级虚拟程序所使用的CPU占比
%idle CPU空闲态的CPU占比

用法示例

1、查看所有CPU运行状态
图片 2

2、查看指定CPU编号的运行状态
图片 3

3、查看CPU中断情况

    因为CPU的运算速度比外部硬件要快很多。以硬盘为例,如果是简单的顺序执行,则CPU需要等待很长
时间,不停询问硬盘是否读取完成,而这样会浪费很多CPU时间。为此人们提出一种中断机制,使得读取硬
盘这样的操作交给其他设备来完成,而CPU则挂起当前进程,将控制权转让给其他来处理的进程,当其他设
备处理完成后通知CPU,系统将当前进程标识为活动进行,从而继续执行,处理硬盘的读取操作。

图片 4

top

   
top是Linux中一个常用的性能监控工具并能周期性地进行更新,我们因此也可以快速了解服务器的运行状态。

基本用法

top [选项]

常用的选项如下所示:

选项 解释
-b 以批处理模式进行操作
-c 显示完整的命令信息
-d 更新时间间隔
-n number 指定循环显示的次数
-u number/name 显示指定用户ID/用户名的进程
-p pid
-s 安全模式
-S 累积模式

交互模式

   
交换械是指在top显示相关信息时,在不影响显示信息的同时进行的其他操作等,详细如下所示:

快捷键 说明
f 添加或删除进程信息项
k 终止进程,需要输入PID号
r 更改进程优先级
S 切换到累积模式
s或d 更改刷新时间
m 切换显示内存信息
t 切换显示进程和CPU状态信息
c 切换显示命令名称和完整命令行
P 根据CPU使用率大小进行排序
T 根据时间/累计时间进行排序
W 将当前设置保存到~/.toprc文件中
q 退出top进程
b 将当前进程进行高亮显示
l 是否显示系统负载信息和启动时间
1(数字1) 显示每个CPU核心单独的性能数据

用法示例

1、第一个示例:
图片 5

示例详解

  • 系统级信息
    图片 6

  • 进程指标信息

指标 说明 参考值
PID 进程ID
PRID 父进程ID
USER 进程所属用户,启用进程的用户名
PR Priority缩写,进程优先级
NI Nice缩写,用于调节优先级,与PR有关,越小越早被执行 -20~20 正数优先级降低,负数优先级提升
VIRT 进程虚拟内存使用量
RES 进程使用且未被交换出的物理内存使用量
SHR 共享内存使用量
S 进程状态 R:运行 S:睡眠 D:不可中断的睡眠状态 T:跟踪、停止 僵尸
%CPU CPU使用率
%MEM 内存使用率
TIME+ 进程的CPU使用时间累积和 单位为1/100秒
TIME 进程占用的CPU时间累积和 单位为秒
RUSER 进程的实际用户名,即登录到Shell所用用户名
UID 进程所属用户的ID
GROUP 进程所属的组名
TTY 启动进程的终端名称
P 进程最近一次所使用的CPU编号
SWAP 进程使用且被交换出来的虚拟内存使用量
CODE 进程对应的可执行代码所占用的物理内存量
DATA 进程对应的数据部分(数据段、栈等)所占用的物理内存量
nFLT 页面错误次数
nDRT 最后一次写入到目前为止被修改过的页面数
WCHAN 如果进程处理睡眠状态,则显示睡眠状态中系统调用名
Flags 进程标志
COMMAND 进程所对应的命令名

iostat

    iostat命令主要用来CPU的统计信息和每个设备、硬盘的IO统计信息

基本用法

iostat [选项] [采样间隔] [采样样本数]

常用的选项如下所示:

选项 解释
-c 仅显示CPU的统计信息,即单独输出CPU的平均统计信息
-d 仅显示设备的统计信息
-h 将各设备的统计信息以易于查看的方式进行显示
-k 以kb/s显示统计信息
-m 以mb/s显示统计信息
-t 增加显示时间戳
-x 显示额外信息
-y 忽略自系统启动以来的第一行信息

用法示例

1、iostat示例
图片 7

2、查看硬盘的IO信息
图片 8

各指标详细解释如下所示:

指标 说明
tps 每秒进程的I/O读写请求总数
MB_read/s 每秒读取的字节数,单位为MB/s
MB_wrtn/s 每秒写入的字节数,单位为MB/s
MB_read 读取的字节总数 ,单位为MB
MB_wrtn 写入的字节总数 ,单位为MB
看到第一组第一行的数字非常大,是否就可以断定I/O存在问题了? 在iostat输出的第一组第一行数据,
表示是自Linux系统启动刚才本命令执行这段期间的统计结果,而后面的几组数据才真正表示了在iostat
采样周期的统计结果,而如果要排除第一组的数据可以使用选项 -y

3、显示额外的统计信息
图片 9

各指标详细解释如下所示:

指标 说明
rrqm/s 每秒对该设备的读取请求总次数
wrqm/s 每秒对该设备的写入请求总次数
r/s 每秒完成读取的I/O次数
w/s 每秒完成写入的I/O次数
rMB/s 每秒实际读取的大小,单位为MB
wMB/s 每秒实际写入的大小,单位为MB
avgrq-sz 平均每次I/O操作的数据大小
avgqu-sz 平均等待处理I/O操作的队列长度
await 平均每次I/O请求等待时间(含等待时间和处理时间),一般应低于5ms
r_await 每次读取I/O请求等待时间
w_await 每次写入I/O请求等待时间
svctm 平均每次I/O操作的服务时间
%util 周期内用于I/O操作的时间比率,即I/O队列非空的时间比率,即(r/s+w/s )*(svctm/1000)

需要关注的参数如下所示:

  • %util:表示磁盘的忙碌情况,较大则代表I/O请求太多,硬盘可能存在瓶颈,一般不超过80%
  • await大于svctm:差值越小,则说明队列时间越短,反之差值越大,则队列时间越长,系统可能存在问题
  • svctm接近await,则说明I/O几乎没有等待时间
  • await远大于svctm,则说明I/O队列太长,则响应时间会变长

4、显示CPU统计信息
图片 10

各指标详细解释如下所示:

指标 说明
%user 显示CPU在用户级(应用程序)执行时的时间占比
%nice 显示CPU在用户级(应用程序)使用NICE权限执行时的时间占比
%system 显示CPU在系统级(内核)执行时的时间占比
%iowait 显示CPU在空闲状态期间未完成的磁盘I/O时间占比
%steal 显示hypervisor服务另一个虚拟处理器时,虚拟CPU等待实际CPU的时间占比
%idle 显示CPU在空闲状态期间系统未完成的磁盘I/O时间占比
  • 如果steal值比较高的话,需要扩容虚拟机,这是因为服务器上的另一个虚拟机可能拥有更大更多的CPU时间片而占用了你的虚拟机的CPU时间
  • 如果iowait值比较高,则可能硬盘存在I/O瓶颈
  • 如果idle值比较高,则表示CPU长期处于空闲状态
  • 如果idle值比较高但系统响应慢时,则有可能是CPU在等待内存分配,可考虑扩容内存容量
  • 如果idle值如果长期低于10%,则CPU处理能力是瓶颈

本文同步在微信订阅号上发布,如各位小伙伴们喜欢我的文章,也可以关注我的微信订阅号:woaitest,或扫描下面的二维码添加关注:
图片 11