摘要:點擊事務入口選項可以看到對應接口的響應時間正常,代表對應接口表現正常,如圖二我們需要繼續排查事務部分。因為同一個事務調取到的后端信息都是相同的,所以我們只需要選取其中的一條或幾條最優代表性例如響應時間較長的進行問題定位即可。
[問題發現]
使用zabbix軟件監控服務器時發現cpu突然異常,在業務主機上使用top命令查看系統的整體運行情況,使用top命令后發現mysqld占用CPU特別高,初步判斷可能是mysqld出現問題,需要排查:
[排查步驟]
Step1:
登錄oneapm ai平臺后可以看到應用列表的總覽視圖,在總覽視圖中可以看到所有應用的名稱以及相關指標信息,同時我們還可以根據應用顏色變化來判斷每個應用的指標變化情況。本例中在Acmeair應用的“用戶體驗一覽”選項卡下可以看到它的業務在最近一段時間內出現了71次失敗,我們需要點擊此應用查看詳情,如圖一:
圖一
Step2:
利用top命令已經基本排查出是數據庫導致CPU占用過高,我們可以通過查看調用數據庫的節點發現問題。
在AI平臺上點擊某個應用進入到該應用的主頁,進入之后可以看到該應用的總體拓撲圖,總覽拓撲圖會把應用中所有Tier、數據庫、遠程服務與其他應用之間的調用關系描繪出來,并且顯示他們的性能情況。當某個節點的顏色為黃色或紅色時,代表該Tier的健康狀態是告警或嚴重。
點擊拓撲圖右上側的“數據庫-展開”選項,可以看到調用mysql數據庫的節點,點擊該節點(例如下圖中的Webapp11節點),出現的彈框中有總覽、節點、Web事務入口、Web事務、主機和容器幾個選項卡。“Web事務入口”可以看到某個應用在應用環境中請求的起始點;而“Web事務”展示了一些用戶最關心的的指標,從而讓用戶對當前查看Web事務的健康狀況產生總體的了解。
點擊“Web事務入口”選項可以看到對應接口的響應時間正常,代表對應接口表現正常,如圖二;我們需要繼續排查“Web事務”部分。
圖二
點擊“Web事務”選項,可以給出該節點中所有Web事務的響應時間及調用次數,點擊“響應時間”可以將響應時間從高往低排序,從而確認緩慢的“Web事務”,如圖三。本例中,點擊響應時間最長的Web事務查看詳情。
圖三
Step3:
點擊響應時間最長的一個Web事務后,左上角“總覽”下“Web事務”的標簽會顯示出該Web事務的平均響應時間,點擊某一響應時間較長的時間點,可以向下鉆取到所選時間段,精準定位到問題時間點。同時在Web事務的下方可以看到該時間段內的最慢組件,如圖四。
在本例中下鉆到具體時間點后,可以在“總覽”界面的“最慢組件”下看到是一個select語句比較耗時,再次佐證了我們的想法。
圖四
Step4:
Trace是對這段時間內該用戶緩慢或錯誤請求的詳細追蹤。
鉆取到問題時間段后,我們查看該時間范圍內的Trace列表,如圖五。因為同一個Web事務調取到的后端信息都是相同的,所以我們只需要選取其中的一條或幾條最優代表性(例如響應時間較長)的Trace進行問題定位即可。
在本例中我們按響應時間進行排序降序排列后,選擇第一條進行Trace詳情查看。
圖五
點擊所選Trace之后,在Trace概要中可以看到該Trace中的最慢組件,如圖六。例如圖六中我們可以在Trace的總覽頁面發現customer/select語句耗時較長。
圖六
彈框中同樣還可以查看該Trace中的堆棧調用詳情。點擊“詳情”選項卡,如圖七,可以看到該sql語句對接口的影響,從而進行代碼的優化。在本例中,我們可以看到SQL語句的耗時百分比較高,可以看出該SQL語句對接口影響較大。
圖七
點擊該SQL語句 附加信息欄中的圖標,可以查看到耗時較長的的sql語句詳情。我們也可以彈框左上角中的“SQL”選型卡,在彈框中也可以看到語句詳情、該語句的響應時間及調用次數,如圖八、圖九:
圖八
圖九
至此,發現問題原因以及影響接口已全部排查出來!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/75659.html
摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。 在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個監控系統...
摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。 在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個監控系統...
摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。 在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個監控系統...
閱讀 3665·2021-09-07 09:59
閱讀 724·2019-08-29 15:12
閱讀 807·2019-08-29 11:14
閱讀 1313·2019-08-26 13:27
閱讀 2666·2019-08-26 10:38
閱讀 3137·2019-08-23 18:07
閱讀 1277·2019-08-23 14:40
閱讀 1928·2019-08-23 12:38