摘要:為了掌握你的告警事件響應(yīng)時(shí)間,在你已經(jīng)開始處理告警時(shí),強(qiáng)烈建議及時(shí)響應(yīng)認(rèn)領(lǐng),例如通過移動(dòng)端微信頁(yè)面移動(dòng)等方式及時(shí)認(rèn)領(lǐng)。這一點(diǎn)國(guó)外做的很棒,在短信電話移動(dòng)都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。
這是《運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運(yùn)維團(tuán)隊(duì)需要關(guān)注的4個(gè)關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時(shí)間 MTTR、平均響應(yīng)時(shí)間 MTTA 等概念。這篇是介紹一些實(shí)踐方法,更好的使用工具進(jìn)行優(yōu)化以上指標(biāo)。
以 MTTA 為指導(dǎo)原則MTTA 是衡量響應(yīng)一個(gè)告警事件的關(guān)鍵性指標(biāo)。為了掌握你的告警事件響應(yīng)時(shí)間,在你已經(jīng)開始處理告警時(shí),強(qiáng)烈建議及時(shí)響應(yīng)(認(rèn)領(lǐng)),例如通過移動(dòng)端、微信、頁(yè)面、移動(dòng) APP 等方式及時(shí)認(rèn)領(lǐng)。特別是如果有多人運(yùn)維、并且設(shè)置了升級(jí)處理的策略,該實(shí)踐會(huì)非常有用,你可以知道現(xiàn)在是誰在處理,處理進(jìn)展怎樣,你就不用擔(dān)心告警沒通知到位或者是沒有處理了。
大多數(shù)優(yōu)秀的運(yùn)維團(tuán)隊(duì),往往會(huì)將 MTTA 作為最關(guān)鍵的指標(biāo)之一,因?yàn)檫@是可控和可操作的。有故障時(shí),我們很難控制最終的恢復(fù)時(shí)間,畢竟涉及問題較多;但是至少可以保證響應(yīng)及時(shí)率。優(yōu)秀的運(yùn)維告警平臺(tái)很容易就能夠能夠跟蹤整個(gè)團(tuán)隊(duì)的 MTTA ,包括現(xiàn)狀、歷史趨勢(shì),團(tuán)隊(duì)是否可以達(dá)到響應(yīng)標(biāo)準(zhǔn)。
可能有同學(xué)會(huì)質(zhì)疑,因?yàn)榇蠹医?jīng)常是第一時(shí)間就開始處理告警,往往忽略掉響應(yīng)(認(rèn)領(lǐng)),平時(shí)如果多個(gè)人協(xié)作同學(xué)坐一起,會(huì)吼一句「放著我來!」就能搞定,需要這么復(fù)雜么。
沒有數(shù)據(jù)記錄,就沒有優(yōu)化基礎(chǔ)。比如如果人員不集中的話,或者是事情多了,就容易溝通不暢或遺漏,使用工具能夠避免該問題。
很多告警工具需要同學(xué)們?cè)?PC 上登錄到告警系統(tǒng)去認(rèn)領(lǐng)一下(甚至撥 VPN 訪問內(nèi)網(wǎng)),確實(shí)很麻煩。這一點(diǎn)國(guó)外 PagerDuty 做的很棒,在短信、電話、移動(dòng) APP 都可以很容易確認(rèn)/認(rèn)領(lǐng); OneAlert 在微信端可以認(rèn)領(lǐng)和關(guān)閉。移動(dòng)化和快捷是實(shí)踐 MTTA 的重要保障。
解決問題需要記錄我們強(qiáng)烈建議及時(shí)更新記錄告警的解決時(shí)間,當(dāng)解決告警或者是告警自動(dòng)恢復(fù)后,及時(shí)在告警系統(tǒng)上記錄/更新告警的狀態(tài)為關(guān)閉或者是恢復(fù)。例如使用 PagerDuty 、 VictorOps 、或者國(guó)內(nèi) OneAlert 時(shí),可以人工記錄告警關(guān)閉。并且如果使用 API 或者其他工具集成方式,會(huì)自動(dòng)化同步監(jiān)控工具的告警狀態(tài)。
謹(jǐn)慎使用超時(shí)時(shí)間不少監(jiān)控工具都具備自動(dòng)升級(jí)規(guī)則,一般會(huì)支持告警自動(dòng)關(guān)閉,即如果長(zhǎng)時(shí)間沒有關(guān)閉/恢復(fù)告警,告警系統(tǒng)會(huì)自動(dòng)關(guān)閉掉,該參數(shù)會(huì)影響到最終的 MTTR 。
如果你沒有形成解決故障后,及時(shí)更新告警平臺(tái)上告警狀態(tài)的習(xí)慣,那么超時(shí)自動(dòng)關(guān)閉時(shí)間能夠避免該問題。PagerDuty 的服務(wù)和 OneAlert 的應(yīng)用都支持超時(shí)自動(dòng)關(guān)閉時(shí)間設(shè)置,一般是30分鐘-4小時(shí)。如果使用超時(shí)自動(dòng)關(guān)閉,那么可能會(huì)在數(shù)據(jù)統(tǒng)計(jì)周報(bào)中影響到最終 MTTR,統(tǒng)計(jì)數(shù)據(jù)會(huì)比實(shí)際更長(zhǎng),這一點(diǎn)不是很利于團(tuán)隊(duì)執(zhí)行效率優(yōu)化,需要謹(jǐn)慎使用。
抖動(dòng)告警(flapping alert)抖動(dòng)告警(flapping alert)是指告警觸發(fā)后,即刻恢復(fù),之后又觸發(fā)并恢復(fù),反復(fù)多次。抖動(dòng)告警的原因大多是監(jiān)控指標(biāo)在閾值范圍附近頻繁抖動(dòng)。抖動(dòng)告警會(huì)引發(fā) MTTA 和 MTTR 數(shù)據(jù)異常,通常表現(xiàn)為大量的告警數(shù)量,但是很小的 MTTA 和 MTTR 值,甚至沒有 MTTA。因?yàn)楦婢€沒有來得及響應(yīng)(認(rèn)領(lǐng))就已經(jīng)被自動(dòng)關(guān)閉了。
還有一點(diǎn),非常重要的是抖動(dòng)告警往往會(huì)引發(fā)告警疲勞,即大量無需處理的告警出現(xiàn),會(huì)增加運(yùn)維人員負(fù)擔(dān),往往會(huì)忽略掉重要告警。所以非常有必要通過周報(bào)分析的方式識(shí)別出哪些抖動(dòng)告警,大部分情況下可以通過優(yōu)化閾值方式優(yōu)化。如可參考 Nagios flapping 設(shè)置。
小結(jié)上一篇《運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)》和這篇文章,分享了國(guó)外PagerDuty、VictorOps和國(guó)內(nèi) OneAlert 的一些核心設(shè)計(jì)理念,希望對(duì)大家有些幫助。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/7942.html
摘要:數(shù)據(jù)中心操作系統(tǒng)以和等新一代創(chuàng)業(yè)公司為代表,開始提出數(shù)據(jù)中心操作系統(tǒng)的概念。數(shù)據(jù)中心操作系統(tǒng)與開發(fā)方有一個(gè)非常清晰和低成本的接入接口,完全省去了運(yùn)維這個(gè)角色寫膠水腳本的必要性,從而徹底顛覆這個(gè)崗位。 崗位價(jià)值有: 權(quán)限縮小 提供操作安全的保險(xiǎn)服務(wù) 提供操作的可擴(kuò)展性 提供業(yè)務(wù)和資源能見度 屏蔽資源的部署細(xì)節(jié) 靜態(tài)資源調(diào)平 動(dòng)態(tài)資源調(diào)平 故障處理和善后 權(quán)限縮小 通過配置文件修改...
摘要:靈活查詢,聚合分組并存除開單純的聚合和分組,還支持聚合和分組的復(fù)合查詢。所以,與會(huì)聚合為一條曲線,而和的關(guān)系則是分組的關(guān)系。當(dāng)然,的功能在未來,還遠(yuǎn)遠(yuǎn)不止這些,高效運(yùn)維的時(shí)代才剛剛開啟。 運(yùn)維 2.0 時(shí)代 運(yùn)維 2.0 是指,從技術(shù)運(yùn)維升級(jí)為服務(wù)運(yùn)維,向公司提供可依賴的專業(yè)服務(wù)。運(yùn)維 2.0 強(qiáng)調(diào)服務(wù)交付能力,而不是技術(shù)能力,需求可依賴、懂業(yè)務(wù)、服務(wù)化的專業(yè)運(yùn)維。 為了了解運(yùn)維 2....
摘要:還有那個(gè)極具極客范兒的監(jiān)控閉路電視的硬盤空間也是用儀表盤展示數(shù)據(jù)的,具體代碼可以看上項(xiàng)目。對(duì)了還有業(yè)務(wù)層面的實(shí)現(xiàn)業(yè)務(wù)響應(yīng)速度監(jiān)控,監(jiān)控的響應(yīng)時(shí)間,什么監(jiān)控?cái)?shù)據(jù),應(yīng)用數(shù)據(jù),儀表盤統(tǒng)統(tǒng)搞的定。 Cloud Insight 第13次新品發(fā)布會(huì)現(xiàn)在開始,首先非常感謝大家前來看我們的新功能發(fā)布會(huì),下面我先給大家介紹一下新功能,之后有什么問題大家盡管問?。 新功能 Cloud Insight 發(fā)布...
摘要:,是開發(fā)和運(yùn)維的組合,代表一種文化運(yùn)動(dòng)或?qū)嵺`,旨在促進(jìn)軟件交付和基礎(chǔ)設(shè)施變更軟件開發(fā)人員和運(yùn)維技術(shù)人員之間的合作和溝通。預(yù)計(jì)年,將成為一項(xiàng)優(yōu)勢(shì)策略得到全面的普及與實(shí)踐。而且隨著新軟件和工具以及技術(shù)的使用,這一勢(shì)頭有望增長(zhǎng)。 DevOps,是開發(fā)(Development)和運(yùn)維(Operations)的組合,代表一種文化、運(yùn)動(dòng)或?qū)嵺`,旨在促進(jìn)軟件交付和基礎(chǔ)設(shè)施變更軟件開發(fā)人員(Dev)和...
摘要:運(yùn)維流程管理工具發(fā)布變更流程管理工具做為系統(tǒng)接口與其他角色的工作銜接。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。告警和突發(fā)管理工具體現(xiàn)業(yè)務(wù)受損的告警自動(dòng)建單管理。運(yùn)維事件數(shù)據(jù)庫(kù)記錄所有的告警。 運(yùn)維流程管理工具 發(fā)布變更流程管理工具:做為系統(tǒng)接口與其他角色的工作銜接。并提供審批環(huán)節(jié)控制發(fā)布變更的風(fēng)險(xiǎn)。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作...
閱讀 2958·2021-11-08 13:20
閱讀 1031·2021-09-22 15:20
閱讀 660·2019-08-30 15:53
閱讀 1964·2019-08-30 15:43
閱讀 1278·2019-08-29 17:21
閱讀 540·2019-08-29 12:15
閱讀 2375·2019-08-28 17:51
閱讀 3142·2019-08-26 13:26