工作中,如果機器cpu idle過低,會收到告警
P2
主機名: set-xr-xxxx監控項:
all(#5) cpu.idle < 30 當前值: 0
排查的步驟如下,
使用top + 大寫P,查看cpu占用過高的進程
這里往往就是后臺java服務,然后要通過進程來排查具體的線程,這時有兩種方法
方法一:
top -H -p [pid] , 這時可以看到該進程下的所有線程,同樣與大寫P結合可以查看cpu占用過高的線程
方法二:
ps -mp [pid] -o THREAD,tid,time ,此時也可以看到該進程下的所有線程,其中m代表列出該進程下的所有線程,p代表列出線程占用cpu的時間,o代表格式化輸出
通過以上兩種方法可以獲取到線程id,以下稱為tid
將tid轉為16進制,可以使用以下命令 printf "%xn" [tid],得到的16進制線程id,我們同樣稱為tid
jstack [pid] | grep tid(16進制) -A 60,從輸出中排查公司相關的代碼內容,找到問題代碼的行數,進行排查
如果是fullgc導致的,可以進一步dump jvm內存信息進行排查
jmap -dump:format=b,file=dump-all.hprof [pid] #dump全量內存數據,[pid]替換為上一步查找的進程id
jmap -dump:live,format=b,file=dump.hprof [pid] #再次dump存活對象內存數據,注意live參數會觸發fullgc,所以本次dump一定要在上一步全量dump之后執行。
使用eclipse的工具mat打開,進行排查
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/76025.html
摘要:周三晚加上了對阿波羅超時的監控,周四觀察上線期間阿波羅超時指標的變化,時間也吻合。月日下午又報了一次警與此同時的阿波羅超時監控這里同時列出機器指標的目的是為了說明,盡管沒有報警,但機器的指標變化和是統一的。 順風車運營研發團隊 熊浩含 問題現象 線上報警群里時而有php-fpm-idle的零星報警,持續時間很短(幾秒甚至一秒),見下圖 showImg(https://segmentf...
摘要:而今,我們就已經實現了這樣的功能使用標簽來實現數據的聚合和分組。數據聚合和分組在中,我們實現了數據的聚合和分組。指所需聚合的的查詢條件。所以,與會聚合為一條曲線,而和的關系是分組的關系。 遙想 2015 年 8 月 17 日,Cloud Insight 還在梳理功能原型,暢想 Cloud Insight 存在的意義:為什么阿里云用戶需要使用 Cloud Insight 來加強管理。 而...
摘要:它的英文全稱是,意為系統活動情況報告。是目前上最為全面的系統性能分析工具之一,通過該命令可以全面地獲取系統的運行隊列磁盤讀寫分區交換區內存中斷和網絡等性能數據。因此可以用它來找出一些性能問題,幫助我們提升服務器的性能做出很好的決策指引。首先我自己都感到不好意思,這個命令幾乎沒有用過(尷尬)。最近在翻查Linux的一些命令,發現自己居然對它很陌生,所以趕緊惡補一下,擴充一下自己。sar它的英文...
摘要:大綱我們需要監控兩臺服務器來確保它們是正常的,運行期間沒有內存和磁盤使用率問題。連接,在收到每個請求服務器的數據后,給每個對應的服務器響應格式化的數據。 注:原文地址 psutil and MongoDB for System Monitoring 這篇入門文章描述了怎樣創建一系列的圖表來監控一臺或多臺服務器的負載。使用 Python(psutil 和 bottle),Mon...
閱讀 1032·2021-11-25 09:43
閱讀 1413·2021-11-18 10:02
閱讀 1814·2021-11-02 14:41
閱讀 2366·2019-08-30 15:55
閱讀 1067·2019-08-29 16:18
閱讀 2552·2019-08-29 14:15
閱讀 1390·2019-08-26 18:13
閱讀 733·2019-08-26 10:27