在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Linux各種問題定位的工具及案例分析

jf_HnAzBl9o ? 來源:lihanglucien ? 2023-08-10 09:04 ? 次閱讀

鏈接:https://www.jianshu.com/p/0bbac570fa4c

1、背景

有時候會遇到一些疑難雜癥,并且監控插件并不能一眼立馬發現問題的根源。這時候就需要登錄服務器進一步深入分析問題的根源。那么分析問題需要有一定的技術經驗積累,并且有些問題涉及到的領域非常廣,才能定位到問題。所以,分析問題和踩坑是非常鍛煉一個人的成長和提升自我能力。如果我們有一套好的分析工具,那將是事半功倍,能夠幫助大家快速定位問題,節省大家很多時間做更深入的事情。

2、說明

本篇文章主要介紹各種問題定位的工具以及會結合案例分析問題。

3、分析問題的方法論

套用5W2H方法,可以提出性能分析的幾個問題

What-現象是什么樣的

When-什么時候發生

Why-為什么會發生

Where-哪個地方發生的問題

How much-耗費了多少資源

How to do-怎么解決問題

4、cpu

4.1 說明

針對應用程序,我們通常關注的是內核CPU調度器功能和性能。

線程的狀態分析主要是分析線程的時間用在什么地方,而線程狀態的分類一般分為:

a. on-CPU:執行中,執行中的時間通常又分為用戶態時間user和系統態時間sys。
b. off-CPU:等待下一輪上CPU,或者等待I/O、鎖、換頁等等,其狀態可以細分為可執行、匿名換頁、睡眠、鎖、空閑等狀態。

如果大量時間花在CPU上,對CPU的剖析能夠迅速解釋原因;如果系統時間大量處于off-cpu狀態,定位問題就會費時很多。但是仍然需要清楚一些概念:

處理器

硬件線程

CPU內存緩存

時鐘頻率

每指令周期數CPI和每周期指令數IPC

CPU指令

使用率

用戶時間/內核時間

調度器

運行隊列

搶占

多進程

多線程

字長

4.2 分析工具

0e6c0dee-3712-11ee-9e74-dac502259ad0.jpg

說明:

uptime,vmstat,mpstat,top,pidstat只能查詢到cpu及負載的的使用情況。

perf可以跟著到進程內部具體函數耗時情況,并且可以指定內核函數進行統計,指哪打哪。

4.3 使用方式

//查看系統cpu使用情況
top

//查看所有cpu核信息
mpstat-PALL1

//查看cpu使用情況以及平均負載
vmstat1

//進程cpu的統計信息
pidstat-u1-ppid

//跟蹤進程內部函數級cpu使用情況
perftop-ppid-ecpu-clock

5、內存

5.1 說明

內存是為提高效率而生,實際分析問題的時候,內存出現問題可能不只是影響性能,而是影響服務或者引起其他問題。同樣對于內存有些概念需要清楚:

主存

虛擬內存

常駐內存

地址空間

OOM

頁緩存

缺頁

換頁

交換空間

交換

用戶分配器libc、glibc、libmalloc和mtmalloc

LINUX內核級SLUB分配器

5.2 分析工具

0e8581b6-3712-11ee-9e74-dac502259ad0.jpg

說明:

free,vmstat,top,pidstat,pmap只能統計內存信息以及進程的內存使用情況。

valgrind可以分析內存泄漏問題。

dtrace動態跟蹤。需要對內核函數有很深入的了解,通過D語言編寫腳本完成跟蹤。

5.3 使用方式

//查看系統內存使用情況
free-m

//虛擬內存統計信息
vmstat1

//查看系統內存情況
top

//1s采集周期,獲取內存的統計信息
pidstat-ppid-r1

//查看進程的內存映像信息
pmap-dpid

//檢測程序內存問題
valgrind--tool=memcheck--leak-check=full--log-file=./log.txt./程序名

6、磁盤IO

6.1 說明

磁盤通常是計算機最慢的子系統,也是最容易出現性能瓶頸的地方,因為磁盤離 CPU 距離最遠而且 CPU 訪問磁盤要涉及到機械操作,比如轉軸、尋軌等。訪問硬盤和訪問內存之間的速度差別是以數量級來計算的,就像1天和1分鐘的差別一樣。要監測 IO 性能,有必要了解一下基本原理和 Linux 是如何處理硬盤和內存之間的 IO 的。

在理解磁盤IO之前,同樣我們需要理解一些概念,例如:

文件系統

VFS

文件系統緩存

頁緩存page cache

緩沖區高速緩存buffer cache

目錄緩存

inode

inode緩存

noop調用策略

6.2 分析工具

0e9b165c-3712-11ee-9e74-dac502259ad0.png

6.3 使用方式

//查看系統io信息
iotop

//統計io詳細信息
iostat-d-x-k110

//查看進程級io的信息
pidstat-d1-ppid

//查看系統IO的請求,比如可以在發現系統IO異常時,可以使用該命令進行調查,就能指定到底是什么原因導致的IO異常
perfrecord-eblock:block_rq_issue-ag
^C
perfreport

7、網絡

7.1 說明

網絡的監測是所有 Linux 子系統里面最復雜的,有太多的因素在里面,比如:延遲、阻塞、沖突、丟包等,更糟的是與 Linux 主機相連的路由器、交換機、無線信號都會影響到整體網絡并且很難判斷是因為 Linux 網絡子系統的問題還是別的設備的問題,增加了監測和判斷的復雜度。現在我們使用的所有網卡都稱為自適應網卡,意思是說能根據網絡上的不同網絡設備導致的不同網絡速度和工作模式進行自動調整。

7.2 分析工具

0eac3b9e-3712-11ee-9e74-dac502259ad0.jpg

7.3 使用方式

//顯示網絡統計信息
netstat-s

//顯示當前UDP連接狀況
netstat-nu

//顯示UDP端口號的使用情況
netstat-apu

//統計機器中網絡連接各個狀態個數
netstat-a|awk'/^tcp/{++S[$NF]}END{for(ainS)printa,S[a]}'

//顯示TCP連接
ss-t-a

//顯示sockets摘要信息
ss-s

//顯示所有udpsockets
ss-u-a

//tcp,etcp狀態
sar-nTCP,ETCP1

//查看網絡IO
sar-nDEV1

//抓包以包為單位進行輸出
tcpdump-ieth1host192.168.1.1andport80

//抓包以流為單位顯示數據內容
tcpflow-cphost192.168.1.1

8、系統負載

8.1 說明

Load 就是對計算機干活多少的度量(WikiPedia:the system Load is a measure of the amount of work that a compute system is doing)簡單的說是進程隊列的長度。Load Average 就是一段時間(1分鐘、5分鐘、15分鐘)內平均Load。

8.2 分析工具

0ec7238c-3712-11ee-9e74-dac502259ad0.png

8.3 使用方式

//查看負載情況
uptime

top

vmstat

//統計系統調用耗時情況
strace-c-ppid

//跟蹤指定的系統操作例如epoll_wait
strace-T-eepoll_wait-ppid

//查看內核日志信息
dmesg

9、火焰圖

9.1 說明

火焰圖(Flame Graph是 Bredan Gregg 創建的一種性能分析圖表,因為它的樣子近似 ?而得名。

火焰圖主要是用來展示 CPU的調用棧。

y 軸表示調用棧,每一層都是一個函數。調用棧越深,火焰就越高,頂部就是正在執行的函數,下方都是它的父函數。

x 軸表示抽樣數,如果一個函數在 x 軸占據的寬度越寬,就表示它被抽到的次數多,即執行的時間長。注意,x 軸不代表時間,而是所有的調用棧合并后,按字母順序排列的。

火焰圖就是看頂層的哪個函數占據的寬度最大。只要有”平頂”(plateaus),就表示該函數可能存在性能問題。顏色沒有特殊含義,因為火焰圖表示的是 CPU 的繁忙程度,所以一般選擇暖色調。

常見的火焰圖類型有On-CPU、Off-CPU、Memory、Hot/Cold、Differential等等。

9.2 安裝依賴庫

//安裝systemtap,默認系統已安裝
yuminstallsystemtapsystemtap-runtime

//內核調試庫必須跟內核版本對應,例如:uname -r 2.6.18-308.el5
kernel-debuginfo-2.6.18-308.el5.x86_64.rpm
kernel-devel-2.6.18-308.el5.x86_64.rpm
kernel-debuginfo-common-2.6.18-308.el5.x86_64.rpm

//安裝內核調試庫
debuginfo-install--enablerepo=debuginfosearchkernel
debuginfo-install--enablerepo=debuginfosearchglibc

9.3 安裝

gitclonehttps://github.com/lidaohang/quick_location.git
cdquick_location

9.4 CPU級別火焰圖

cpu占用過高,或者使用率提不上來,你能快速定位到代碼的哪塊有問題嗎?
一般的做法可能就是通過日志等方式去確定問題。現在我們有了火焰圖,能夠非常清晰的發現哪個函數占用cpu過高,或者過低導致的問題。

9.4.1 on-CPU

cpu占用過高,執行中的時間通常又分為用戶態時間user和系統態時間sys。

使用方式:

//on-CPUuser
shngx_on_cpu_u.shpid

//進入結果目錄
cdngx_on_cpu_u

//on-CPUkernel
shngx_on_cpu_k.shpid

//進入結果目錄
cdngx_on_cpu_k

//開一個臨時端口8088
python-mSimpleHTTPServer8088

//打開瀏覽器輸入地址
127.0.0.1:8088/pid.svg

DEMO:

#include
#include

voidfoo3()
{
}

voidfoo2()
{
inti;
for(i=0;i foo3();
}

voidfoo1()
{
inti;
for(i=0;i foo3();
}

intmain(void)
{
inti;
for(i=0;i foo1();
foo2();
}
}

DEMO火焰圖:

0ed7640e-3712-11ee-9e74-dac502259ad0.jpg

9.4.2 off-CPU

cpu過低,利用率不高。等待下一輪CPU,或者等待I/O、鎖、換頁等等,其狀態可以細分為可執行、匿名換頁、睡眠、鎖、空閑等狀態。

使用方式:

//off-CPUuser
shngx_off_cpu_u.shpid

//進入結果目錄
cdngx_off_cpu_u

//off-CPUkernel
shngx_off_cpu_k.shpid

//進入結果目錄
cdngx_off_cpu_k

//開一個臨時端口8088
python-mSimpleHTTPServer8088

//打開瀏覽器輸入地址
127.0.0.1:8088/pid.svg

官網DEMO:

0ee81588-3712-11ee-9e74-dac502259ad0.jpg

9.5 內存級別火焰圖

如果線上程序出現了內存泄漏,并且只在特定的場景才會出現。這個時候我們怎么辦呢?有什么好的方式和工具能快速的發現代碼的問題呢?同樣內存級別火焰圖幫你快速分析問題的根源。

使用方式:

shngx_on_memory.shpid

//進入結果目錄
cdngx_on_memory

//開一個臨時端口8088
python-mSimpleHTTPServer8088

//打開瀏覽器輸入地址
127.0.0.1:8088/pid.svg

官網DEMO:

0ef6a026-3712-11ee-9e74-dac502259ad0.jpg

9.6 性能回退-紅藍差分火焰圖

你能快速定位CPU性能回退的問題么?如果你的工作環境非常復雜且變化快速,那么使用現有的工具是來定位這類問題是很具有挑戰性的。當你花掉數周時間把根因找到時,代碼已經又變更了好幾輪,新的性能問題又冒了出來。主要可以用到每次構建中,每次上線做對比看,如果損失嚴重可以立馬解決修復。

通過抓取了兩張普通的火焰圖,然后進行對比,并對差異部分進行標色:紅色表示上升,藍色表示下降。差分火焰圖是以當前(“修改后”)的profile文件作為基準,形狀和大小都保持不變。因此你通過色彩的差異就能夠很直觀的找到差異部分,且可以看出為什么會有這樣的差異。

使用方式:

cdquick_location

//抓取代碼修改前的profile1文件
perfrecord-F99-ppid-g--sleep30
perfscript>out.stacks1

//抓取代碼修改后的profile2文件
perfrecord-F99-ppid-g--sleep30
perfscript>out.stacks2

//生成差分火焰圖:
./FlameGraph/stackcollapse-perf.pl../out.stacks1>out.folded1
./FlameGraph/stackcollapse-perf.pl../out.stacks2>out.folded2
./FlameGraph/difffolded.plout.folded1out.folded2|./FlameGraph/flamegraph.pl>diff2.svg

DEMO:

//test.c
#include
#include

voidfoo3()
{
}

voidfoo2()
{
inti;
for(i=0;i foo3();
}

voidfoo1()
{
inti;
for(i=0;i foo3();
}

intmain(void)
{
inti;
for(i=0;i foo1();
foo2();
}
}

//test1.c
#include
#include

voidfoo3()
{
}

voidfoo2()
{
inti;
for(i=0;i foo3();
}

voidfoo1()
{
inti;
for(i=0;i foo3();
}

voidadd()
{
inti;
for(i=0;i foo3();
}

intmain(void)
{
inti;
for(i=0;i foo1();
foo2();
add();
}
}

DEMO紅藍差分火焰圖:

0f01f016-3712-11ee-9e74-dac502259ad0.jpg

10、案例分析

10.1 接入層nginx集群異常現象

通過監控插件發現在2017.09.25 19點nginx集群請求流量出現大量的499,5xx狀態碼。并且發現機器cpu使用率升高,目前一直持續中。

10.2 分析nginx相關指標

a)**分析nginx請求流量:

0f0b643e-3712-11ee-9e74-dac502259ad0.jpg

結論:

通過上圖發現流量并沒有突增,反而下降了,跟請求流量突增沒關系。

b)**分析nginx響應時間
0f27acf2-3712-11ee-9e74-dac502259ad0.jpg

結論:

通過上圖發現nginx的響應時間有增加可能跟nginx自身有關系或者跟后端upstream響應時間有關系。

c)**分析nginx upstream響應時間

0f3801ba-3712-11ee-9e74-dac502259ad0.jpg

結論:

通過上圖發現nginx upstream 響應時間有增加,目前猜測可能后端upstream響應時間拖住nginx,導致nginx出現請求流量異常。

10.3 分析系統cpu情況

a)**通過top觀察系統指標

top

0f518d88-3712-11ee-9e74-dac502259ad0.jpg

結論:

發現nginx worker cpu比較高

b)**分析nginx進程內部cpu情況

perf top -p pid

結論:

發現主要開銷在free,malloc,json解析上面

10.4 火焰圖分析cpu

a)**生成用戶態cpu火焰圖

//test.c
#include
#include
//on-CPUuser
shngx_on_cpu_u.shpid

//進入結果目錄
cdngx_on_cpu_u

//開一個臨時端口8088
python-mSimpleHTTPServer8088

//打開瀏覽器輸入地址
127.0.0.1:8088/pid.svg

0f715514-3712-11ee-9e74-dac502259ad0.jpg

結論:

發現代碼里面有頻繁的解析json操作,并且發現這個json庫性能不高,占用cpu挺高。

10.5 案例總結

a)分析請求流量異常,得出nginx upstream后端機器響應時間拉長

b)分析nginx進程cpu高,得出nginx內部模塊代碼有耗時的json解析以及內存分配回收操作

10.5.1 深入分析

根據以上兩點問題分析的結論,我們進一步深入分析。

后端upstream響應拉長,最多可能影響nginx的處理能力。但是不可能會影響nginx內部模塊占用過多的cpu操作。并且當時占用cpu高的模塊,是在請求的時候才會走的邏輯。不太可能是upstram后端拖住nginx,從而觸發這個cpu的耗時操作。

10.5.2 解決方式

遇到這種問題,我們優先解決已知的,并且非常明確的問題。那就是cpu高的問題。解決方式先降級關閉占用cpu過高的模塊,然后進行觀察。經過降級關閉該模塊cpu降下來了,并且nginx請求流量也正常了。之所以會影響upstream時間拉長,因為upstream后端的服務調用的接口可能是個環路再次走回到nginx。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19404

    瀏覽量

    230970
  • 狀態機
    +關注

    關注

    2

    文章

    492

    瀏覽量

    27633
  • 虛擬機
    +關注

    關注

    1

    文章

    931

    瀏覽量

    28381
  • LINUX內核
    +關注

    關注

    1

    文章

    316

    瀏覽量

    21714
  • 調度器
    +關注

    關注

    0

    文章

    98

    瀏覽量

    5286

原文標題:Linux 問題故障定位的技巧大全

文章出處:【微信號:網絡工程師筆記,微信公眾號:網絡工程師筆記】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Linux性能分析工具匯總

    出于對Linux操作系統的興趣,以及對底層知識的強烈欲望,因此整理了這篇文章。本文也可以作為檢驗基礎知識的指標,另外文章涵蓋了一個系統的方方面面。如果沒有完善的計算機系統知識,網絡知識和操作系統知識,文檔中的工具,是不可能完全掌握的,另外對系統性能
    發表于 11-01 13:11 ?560次閱讀

    Linux系統下進程的幾種狀態介紹

    文章對 Linux 系統下進程的幾種狀態進行介紹,并對系統出現大量僵尸進程和不可中斷進程的場景進行分析,使用常用的幾種工具進行問題分析定位
    發表于 11-24 16:15 ?1.3w次閱讀
    <b class='flag-5'>Linux</b>系統下進程的幾種狀態介紹

    Linux性能分析工具大全

    今天浩道跟大家分享關于linux性能分析過程中常用到的分析工具
    發表于 01-05 09:52 ?628次閱讀

    Linux接入層問題故障定位分析

    問題。所以,分析問題和踩坑是非常鍛煉一個人的成長和提升自我能力。如果我們有一套好的分析工具,那將是事半功倍,能夠幫助大家快速定位問題,節省大家很多時間做更深入的事情。
    發表于 06-28 09:53 ?413次閱讀
    <b class='flag-5'>Linux</b>接入層問題故障<b class='flag-5'>定位</b><b class='flag-5'>分析</b>

    Linux ARM中斷向量重定位硬件平臺分析

    Linux ARM 中斷向量重定位分析
    發表于 07-19 12:34

    怎么樣選擇嵌入式Linux開發工具

    怎么樣選擇嵌入式Linux開發工具 嵌入式Linux具有穩定、可伸縮及開放源代碼等特點,可兼容多種處理器和主機,廣泛適用于各種產品和應用。但是,交叉
    發表于 09-10 10:17 ?1122次閱讀
    怎么樣選擇嵌入式<b class='flag-5'>Linux</b>開發<b class='flag-5'>工具</b>

    實用的Linux網絡配置工具netconf

    實用的Linux網絡配置工具netconf 很多用戶不使用Linux網絡的原因是配置的復雜性與困難性,下面的內容介紹使用Linux下的GUI環境下的網絡配置
    發表于 01-29 11:24 ?922次閱讀

    水下GPS定位誤差分析

    水下GPS定位精度受到各種因素的影響,為得到精確的定位數據,需要分析各因素與定位誤差的關系。文中介紹了水下GPS
    發表于 07-24 15:33 ?41次下載
    水下GPS<b class='flag-5'>定位</b>誤差<b class='flag-5'>分析</b>

    你知道perf學習-linux自帶性能分析工具怎么用?

    Linux性能調優工具,32內核以上自帶的工具,軟件性能分析。在2.6.31及后續版本的linux內核里,安裝perf非常的容易。
    發表于 05-16 14:54 ?2627次閱讀

    嵌入式linux通用截圖工具

    嵌入式linux通用截圖工具
    發表于 11-01 17:07 ?2次下載
    嵌入式<b class='flag-5'>linux</b>通用截圖<b class='flag-5'>工具</b>

    Linux perf性能、實際應用與案例

    Linux perf(性能分析工具)是一個功能強大且靈活的性能剩余工具,它可以在Linux系統上檢測和調試
    發表于 07-03 10:22 ?710次閱讀

    如何使用perf性能分析工具

    放在一起,是內核級的工具。perf是在Linux上做剖析分析的首選工具。 perf命令介紹 perf 工具提供了一組豐富的命令來收集和
    的頭像 發表于 11-08 15:36 ?1711次閱讀
    如何使用perf性能<b class='flag-5'>分析</b><b class='flag-5'>工具</b>

    Linux perf 簡要介紹

    一、引言 (Introduction) 簡要介紹Linux perf (Brief Introduction to Linux perf) Linux perf(性能分析
    的頭像 發表于 11-09 17:06 ?907次閱讀

    linux鏡像制作工具

    Linux鏡像制作工具是一類非常重要的工具,可以用于創建定制的Linux操作系統鏡像。這些工具可以幫助開發人員、系統管理員和
    的頭像 發表于 11-23 09:56 ?2326次閱讀

    linux備份還原工具有哪些?

    Linux備份還原工具是用于在Linux系統上進行數據備份和還原操作的軟件或工具。它們提供了一種簡單、有效和可靠的方式來保護數據免受丟失、損壞或誤操作的影響。本文將介紹一些常用的
    的頭像 發表于 11-23 10:06 ?1636次閱讀
    主站蜘蛛池模板: 久久精品国产2020观看福利色 | 深夜大尺度视频在线观看 | 色噜噜狠狠成人影院 | 午夜毛片不卡高清免费 | 国产亚洲午夜精品a一区二区 | 日韩特黄特色大片免费视频 | 99久久综合 | 亚洲成av人片在线观看无码 | 日韩一级视频免费观看 | 三级在线观看视频网站 | 久久777国产线看观看精品卜 | 色欲香天天天综合网站 | 亚洲欧美日韩高清mmm777 | 免费欧美 | 美女免费视频一区二区三区 | 天堂网ww | 午夜久久久久久网站 | 国产精品视频久久久久久 | 美女性视频网站 | 欧美三级日韩三级 | 日本人zzzwww | 日本免费不卡一区 | 91久久另类重口变态 | 又黄又爽又猛午夜性色播在线播放 | 国产亚洲精品自在久久77 | 久久久国产乱子伦精品 | 久久天天 | 久久精品免费观看 | 亚洲三级理论 | 68日本xxxⅹxxxxx18| 他也色在线视频 | 老司机午夜网站 | 天天怕夜夜怕狠狠怕 | 在线观看永久免费视频网站 | 中文字幕一区二区三区在线不卡 | 最新天堂 | 免费视频在线播放 | 国产色妞妞在线视频免费播放 | 成人欧美一区二区三区小说 | 久久久久久久国产 | 午夜伦理在线观看 |