国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

如何利用秒級監控進行mongodb故障排查

reclay / 2247人閱讀

摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。

在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個監控系統的好壞,也很大程度上影響了能否精確的定位故障,以及是否能正確進行問題修復,避免下一次的故障。而監控粒度、監控指標完整性、監控實時性是評價一個監控的三個重要因素。

在監控粒度上,目前很多的系統都只能做到分鐘級監控,或者半分鐘級監控。這樣一個監控粒度,在針對當前高速運轉的軟件環境下,能力已經越來越捉襟見肘。對于一些瞬間爆發的大量異常更是無能為力。而提升監控粒度,帶來的成倍增長的大數據量以及成倍降低的采集頻率,對于資源的消耗將會是極大的考驗。

在監控指標完整性上,當前絕大部分的系統采用的是預定義指標進行采集的方式。這種方式有一個極大的弊端,就是,如果因為一開始沒有意識到某個指標的重要性而漏采,但是恰恰卻是某次故障的關鍵性指標,這個時候這個故障便極有可能變成“無頭冤案”。

而在監控的實時性上——“沒有人關心過去是好是壞,他們只在乎現在”。

以上三個能力,只要做好一個,就可以稱得上是不錯的監控系統了。而阿里云自研的秒級監控系統inspector已經可以做到1秒1點的真秒級粒度,全量指標采集、無一疏漏——甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。1秒1點的監控粒度,讓數據庫的任何抖動都無處遁形;全量指標采集,給予了dba足夠全面完整的信息;而實時數據展示,能第一時間知道故障的發生,也能第一時間知道故障的恢復。

今天就針對mongodb數據庫,來聊一聊當遇到db訪問超時時,如果利用秒級監控系統inspector進行故障排查:

case 1
之前有一個線上業務,用的是mongodb副本集,并且在業務端進行了讀寫分離。突然有一天,業務出現大量線上讀流量超時,通過inspector可以明顯看到當時從庫的延遲異常飆高

從庫延遲飆高,則說明從庫oplog重放線程速度追不上主庫寫入速度,而在主從配置一致的情況下,如果從庫的響應速度比不上主庫,那只能說明從庫當時除了正常的業務操作之外,還在進行一些高消耗的操作。
經過排查,我們發現當時db的cache出現了飆升:

從監控中可以明顯的看到,cache usage迅速從80%左右升到95%的evict trigger線,并且與此同時,dirty cache也有所攀升,達到了dirty cache evict的trigger線。
對于wiredTiger引擎,當cache使用率達到trigger線后,wt認為evict線程來不及evict page,那么就會讓用戶線程加入evict操作,然后此時就會大量引起超時。而這個想法通過application evict time指標也可以加以印證:

通過上圖我們可以清晰的看到,當時用戶線程花費了大量時間去做evict,然后導致了正常訪問請求的大量超時
然后經過業務端排查,是因為當時有大量的數據遷移job導致cache打滿,所以在對遷移job進行限流并且增大cache之后,整個db運行也開始變的平穩。

case 2
某日線上一個使用sharding集群的業務突然又一波訪問超時報錯,然后短暫時間后又迅速恢復正常。通過經驗判斷,當時多半有一些鎖操作,導致訪問超時。
通過inspector,我們發現在故障發生時刻某個shard上鎖隊列很高:

所以基本印證了我們之前對于鎖導致訪問超時的猜想。那么究竟是什么操作導致了鎖隊列的飆升呢?
很快,通過對當時命令的排查,我們發現當時shard上的鑒權命令突然飆高:

而通過查看代碼,我們發現,mongos到mongod雖然使用keyfile進行認證,但是實際也是通過sasl命令的scram協議來進行認證,而這個在認證的時候會有一個全局鎖,所以當時瞬間大量的鑒權導致了全局鎖隊列飆升,然后導致訪問超時

所以,最后我們通過改小客戶端的連接數,來減少這種突然激增的鑒權產生全局鎖導致超時。

通過以上兩個case,我們能看到,足夠小的監控粒度,足夠全面的監控指標項,對于故障發生的問題排查有多么重要,而實時性,在監控墻場景下的作用也十分明顯。

最后,秒級監控已經在阿里云mongodb控制臺開放,云mongodb的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。

查看原文

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/8011.html

相關文章

  • 如何利用秒級監控進行mongodb故障排查

    摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。 摘要: 在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個...

    chavesgu 評論0 收藏0
  • 如何利用秒級監控進行mongodb故障排查

    摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。 在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個監控系統...

    kyanag 評論0 收藏0
  • 如何利用秒級監控進行mongodb故障排查

    摘要:而阿里云自研的秒級監控系統已經可以做到秒點的真秒級粒度,全量指標采集無一疏漏甚至對曾經沒有出現過的指標進行自動采集,實時數據展示。最后,秒級監控已經在阿里云控制臺開放,云的用戶可以自主進行監控開啟,體驗秒級監控帶來的高清體驗。 在我們平時的數據庫使用當中,監控系統,作為排查故障,告警故障的重要輔助系統,對dba、運維、業務開發同學進行問題診斷、排查、分析有著重要的作用。并且一個監控系統...

    Taonce 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<