大型网站集群监控-监控指标和命令

本文共有2326个字,关键词:linux监控

1. load

通过topuptime命令来查看系统的load值。load指的是特定时间间隔内运行队列中的平均线程数。load值越大,意味着系统的CPU越繁忙。一般来说,只要每个CPU当前的活动线程数不大于3,我们就认为它的负载是正常的,如果每个CPU的活动线程数大于5,则表示当前系统的负载已经非常高了。

fengxianqi@ubuntu:~$ uptime
 17:13:13 up 0 min,  0 users,  load average: 0.52, 0.58, 0.59

load average后面跟的三个值分别表示在过去的1分钟、5分钟、15分钟内系统的load值。

2. CPU利用率

在Linux系统下,CPU的时间消耗主要在这几个方面:用户进程、内核进程、中断处理、I/O等待、Nice时间、丢失时间、空闲等几个部分。而CPU的利用率则为这些时间所占总时间的百分比。

fengxianqi@ubuntu:~$ top | grep Cpu
%Cpu(s):  6.0 us,  2.4 sy,  0.0 ni, 91.3 id,  0.0 wa,  0.3 hi,  0.0 si,  0.0 st
%Cpu(s):  3.2 us,  0.8 sy,  0.0 ni, 96.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st

us(User Time)用户时间,表示CPU执行用户进程所占用的时间;
sy(System Time)系统时间,表示CPU在内核态所花费的时间;
ni(Nice Time)调整优先级时间,表示CPU在调整进程优先级的时候花费的时间;
id(Idle Time)空闲时间,表示系统处于空闲期,等待进程运行,这个过程所占用的时间;
wa(Waiting Time)等待时间,表示CPU在等待I/O操作所花费的时间;
hi(Hard Irq Time)硬件中断时间,表示系统处理硬件中断所占用的时间;
si(Soft Irq Time)软件中断时间,表示系统处理软件中断所占用的时间;

st(Steal Time)丢失时间,表示当前虚拟机与该宿主上的其他虚拟机间的CPU争用时间;

对于多核CPU,按1可以查看每个核的CPU利用率

%Cpu0  :  5.3 us,  1.0 sy,  0.0 ni, 93.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1  :  2.7 us,  0.3 sy,  0.0 ni, 97.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu2  :  5.7 us,  0.3 sy,  0.0 ni, 94.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu3  :  6.4 us,  0.3 sy,  0.0 ni, 93.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st

3. 磁盘剩余空间

df -h 按单位格式化输出
du -d 1 -h /home查看具体目录所占用的空间,分析大文件所处位置

4. 网络traffic

sar -n DEV 1 1

-n 表示汇报网络状况,DEV查看各个网卡的网络流量,第一个1表示每秒抽样一次,第二个1表示总共取一次,
Average表示平均值。

5. 磁盘I/O

iostat -d -k

使用iostat工具能够看到磁盘的I/O情况,其中-d表示查看磁盘使用情况,-k表示以KB为单位显示。

6. 内存使用

free -m

-m表示以MB为单位。
返回的数据中,有MemSwap两行,Mem表示内存情况,Swap表示虚拟内存的消耗,对于应用来说更值得关注Swap的消耗。swap使用过多表示物理内存已经不够用了,操作系统将本应该物理内存存储的一部分内存页调度到磁盘上,以腾出足够的空间给当前的进程使用。在调度郭程程中会产生swap I/O,如果比较频繁会影响系统性能。
通过vmstat命令可以查看swap I/O的情况。

7. qps

即query per second,即每秒查询数。qps在很大程度上代表了系统在业务上的繁忙程度,而每次请求的背后,可能对应着多次磁盘I/O、所赐网络请求,以及多个CPU时间片。

8. rt

rt即response time的缩写,即请求的响应时间。该指标直接关系前端的用户体验。降低rt时间需要从各个方面入手,例如:部署CDN边缘节点来缩短用户请求的物理路径;通过内容压缩来减少传输的字节数;使用缓存来减少磁盘I/O和网络请求等。

9. select/ps

数据库美妙处理的select语句的数量。

10. update/ps、delete/ps

update/ps记录了数据库每秒处理update语句的数量,delete/ps记录了数据库每秒处理delete语句的数量。

(完)

以上笔记来源:《大型分布式网站架构设计与实践》陈康贤

「一键投喂 软糖/蛋糕/布丁/牛奶/冰阔乐!」

fengxianqi

(๑>ڡ<)☆谢谢老板~

使用微信扫描二维码完成支付

版权声明:本文为作者原创,如需转载须联系作者本人同意,未经作者本人同意不得擅自转载。
添加新评论
暂无评论