摘要:平均解決事件解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。平均每小時(shí)折合損失。說明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的。小結(jié)致力減少告警數(shù)量及時(shí)響應(yīng)如果不能及時(shí)響應(yīng),能夠升級(jí)處理,最終提升解決時(shí)間,個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。
很難說,生活在這個(gè)數(shù)據(jù)大爆炸的時(shí)代對(duì)運(yùn)維同學(xué)是福還是禍。靈活的監(jiān)控系統(tǒng)、開放 API 和易用的數(shù)據(jù)可視化資源可以將任何想要的數(shù)據(jù)圖表化地顯示出來,但是,過多的數(shù)據(jù)容易產(chǎn)生干擾,反而不利于具體信息提取和操作。
關(guān)于監(jiān)控哪些指標(biāo),以及為什么要從系統(tǒng)化的角度出發(fā),我們進(jìn)行過深入的思考。本文中,我們想與大家分享一些具體的指標(biāo)和準(zhǔn)則,進(jìn)一步幫助團(tuán)隊(duì)衡量并提高運(yùn)維性能。以下整理了4個(gè)關(guān)鍵性運(yùn)維指標(biāo):
告警事件數(shù)量如果團(tuán)隊(duì)中的事件數(shù)量呈現(xiàn)上升趨勢(shì),那么很有可能是哪里出了問題:要么是基礎(chǔ)設(shè)施有故障,要么是監(jiān)控工具配置錯(cuò)誤需要調(diào)整。
隨著公司的發(fā)展,組織結(jié)構(gòu)會(huì)調(diào)整,同時(shí)業(yè)務(wù)產(chǎn)品也會(huì)不斷升級(jí),配套監(jiān)控也會(huì)同步上線,告警事件數(shù)量會(huì)急劇增加。「我們浪費(fèi)了大量時(shí)間來關(guān)閉冗余報(bào)警。」--相信很多同學(xué)都會(huì)有類似的體會(huì)。告警事件數(shù)量是可控的:
告警數(shù)量可統(tǒng)計(jì),如這周告警數(shù)量是多少,與新發(fā)布的產(chǎn)品系統(tǒng)有沒有關(guān)系,發(fā)生哪些問題?
告警數(shù)量是可操作的,意味著每一個(gè)告警都是有意義并且是需要處理和操作的,如果僅僅是瞅一眼的數(shù)據(jù),請(qǐng)不要通過告警方式。例如100+機(jī)器時(shí),每臺(tái)機(jī)器的「CPU 使用率高」告警是沒有啥用的,你知道機(jī)器 CPU 使用率高后,你能做什么操作呢?你可能直接忽略掉,當(dāng)數(shù)量大到你把需要處理的告警也忽略掉時(shí),告警就失去了意義。類似指標(biāo)完全可以通過周報(bào)/日?qǐng)?bào)進(jìn)行數(shù)據(jù)的性能分析,而不是告警。
平均解決事件( MTTR )解決時(shí)間是衡量業(yè)務(wù)準(zhǔn)備的最佳標(biāo)準(zhǔn)。當(dāng)事件發(fā)生時(shí),你的團(tuán)隊(duì)需要多長(zhǎng)時(shí)間才能解決?
宕機(jī)不僅會(huì)影響你的收入,還會(huì)傷害客戶用戶體驗(yàn)和忠誠(chéng)度,所以確保團(tuán)隊(duì)對(duì)所有事件可以快速響應(yīng)極為關(guān)鍵。
全球500強(qiáng)企業(yè)平均每周出現(xiàn)嚴(yán)重故障時(shí)間長(zhǎng)達(dá)1.6小時(shí)。
平均每小時(shí)折合損失$96,000。
當(dāng)然,跟蹤解決時(shí)間固然重要,但對(duì)其進(jìn)行規(guī)范往往很難,企業(yè)可以根據(jù)環(huán)境的復(fù)雜性、團(tuán)隊(duì)和基礎(chǔ)設(shè)施的責(zé)任制、行業(yè)及其他因素,進(jìn)一步觀測(cè) MTTR 的差異。但是,規(guī)范化的操作手冊(cè)、自動(dòng)化的基礎(chǔ)設(shè)施管理、可靠的告警升級(jí)策略都有助于減少事件,和提升 MTTR。
優(yōu)秀的團(tuán)隊(duì)減少事件數(shù)量,并及時(shí)解決( MTTR ),所以平均解決事件需要和上面告警數(shù)量一樣,需要記錄和統(tǒng)計(jì)分析,目前大多監(jiān)控工具往往不具備類似能力,如果沒有精力或者資源自行開發(fā)的話,我們就建議使用第三方平臺(tái)OneAlert 。
有關(guān)如何減少事件數(shù)量,避免告警疲勞的事情,后續(xù)將會(huì)有獨(dú)立文章進(jìn)行發(fā)布。
平均響應(yīng)時(shí)間( MTTA )如果說平均解決時(shí)間是結(jié)果,那么平均響應(yīng)時(shí)間就是重要的過程指標(biāo),這一點(diǎn)往往被大多團(tuán)隊(duì)忽略掉。可以理解為告警越快發(fā)現(xiàn),越快有人響應(yīng),就能夠越快的解決(更好的MTTR)。
提升 MTTA 的核心是找對(duì)人、找到人。上圖中如果02:01能夠及時(shí)通知到位就可以節(jié)省至少4個(gè)小時(shí)時(shí)間。
說起來簡(jiǎn)單,實(shí)際上找對(duì)人有些工作(只1人運(yùn)維的請(qǐng)忽略),一般是從職責(zé)責(zé)任制、協(xié)調(diào)機(jī)制、工作進(jìn)程透明、工作量和時(shí)間可衡量等幾點(diǎn)進(jìn)行,后面針對(duì)「有序分派」再補(bǔ)充一篇。
除了以上機(jī)制,還有一點(diǎn),就是需要記錄誰什么時(shí)候確認(rèn)響應(yīng)告警,并做了哪些處理,能夠持續(xù)跟蹤,以及統(tǒng)計(jì)分析。
響應(yīng)時(shí)間非常重要,因?yàn)樗軒椭懔私饽男﹫F(tuán)隊(duì)和個(gè)人處于隨叫隨到的狀態(tài)。快速響應(yīng)時(shí)間是一個(gè)戰(zhàn)備文化的代表,你會(huì)發(fā)現(xiàn)具備快響應(yīng)觀念和工具的團(tuán)隊(duì)往往可以更快地修復(fù)事件。
如果使用像 OneAlert 的事件管理系統(tǒng),[升級(jí)超時(shí)]有助于推進(jìn)響應(yīng)目標(biāo)。例如,如果你希望所有事件都應(yīng)該在5分鐘內(nèi)回復(fù),可以將超時(shí)設(shè)置為5分鐘,從而確保下一個(gè)接收人會(huì)收到提醒。再根據(jù)團(tuán)隊(duì)的整體表現(xiàn),來決定是否需要調(diào)整目標(biāo),然后再跟蹤升級(jí)事件的數(shù)量。
升級(jí)對(duì)于大多數(shù)使用事件管理工具的組織而言,告警升級(jí)是一種異常現(xiàn)象,該跡象表明首次應(yīng)該響應(yīng)的時(shí)候,無法及時(shí)應(yīng)對(duì)事件,或許相關(guān)工具和人員技能失效。升級(jí)策略是事件管理的必須,各個(gè)團(tuán)隊(duì)?wèi)?yīng)努力推動(dòng)升級(jí),實(shí)現(xiàn)升級(jí)事件數(shù)量的下降。
優(yōu)秀的運(yùn)維團(tuán)隊(duì)需要建立起有效的一線、二線、甚至三線響應(yīng)機(jī)制,告警及時(shí)通知到一線,如果一線沒有及時(shí)處理,可以自動(dòng)升級(jí)至二線運(yùn)維,保障每一個(gè)重要事件能夠得到及時(shí)響應(yīng)和處理。
有些情況下,升級(jí)是標(biāo)準(zhǔn)作業(yè)實(shí)踐的一部分。例如,你可能有一個(gè) NOC,一線支持團(tuán)隊(duì)或者自動(dòng)修復(fù)工具,可根據(jù)內(nèi)容來升級(jí)或分診輸入事件。這種情況下,一線更多像一個(gè)路由轉(zhuǎn)發(fā)器,可以通過人工+工具自動(dòng)化方式實(shí)現(xiàn)。
示例分析
這是某個(gè)團(tuán)隊(duì)一個(gè)月的告警數(shù)據(jù)剖析:
告警數(shù)量在11-18前相對(duì)穩(wěn)健,平均在3-5個(gè)告警。第3周告警突飛猛進(jìn),原因是新的業(yè)務(wù)上線,引發(fā)突增。經(jīng)過周回顧,優(yōu)化監(jiān)控策略,在第4周經(jīng)過初步優(yōu)化,告警數(shù)量有所降低,運(yùn)維團(tuán)隊(duì)工作初見成效,還需要繼續(xù)優(yōu)化。
告警響應(yīng)時(shí)間 MTTA ,基本上都能夠比較好的響應(yīng),基本在5分鐘內(nèi)響應(yīng)。說明整個(gè)團(tuán)隊(duì)的響應(yīng)及時(shí)率是不錯(cuò)的。同時(shí)也看到在第3、4周六的時(shí)候,明顯的響應(yīng)時(shí)間延遲較大,說明一個(gè)問題,周末的支撐工作有提升空間。
恢復(fù)時(shí)間 MTTR ,基本保持在20分鐘左右,說明恢復(fù)比較及時(shí),但是也有可能存在事件無需關(guān)注,自動(dòng)恢復(fù)。后者需要針對(duì)事件的類型、根源進(jìn)一步分析,后續(xù)文章再剖析。
升級(jí),目前該團(tuán)隊(duì)基本上是5分鐘升級(jí),所以會(huì)看到在大部分問題能在5分鐘內(nèi)響應(yīng)完成。
小結(jié)致力減少告警數(shù)量、及時(shí)響應(yīng) MTTA 、如果不能及時(shí)響應(yīng),能夠升級(jí)處理,最終提升解決時(shí)間 MTTR,4個(gè)核心關(guān)鍵指標(biāo)是運(yùn)維支撐工作非常關(guān)鍵的指標(biāo)。
運(yùn)維是結(jié)合管理流程、工具、人員三方面的綜合化工作,OneAlert 期望構(gòu)建一個(gè)告警平臺(tái),能夠幫助運(yùn)維同學(xué)更有效率的完成支撐工作。
OneAlert 是北京藍(lán)海訊通科技股份有限公司旗下產(chǎn)品,中國(guó)首個(gè) SaaS 模式的云告警平臺(tái),集成國(guó)內(nèi)外主流監(jiān)控/支撐系統(tǒng),實(shí)現(xiàn)一個(gè)平臺(tái)上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請(qǐng)?jiān)L問 OneAlert 官網(wǎng) 。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/7946.html
摘要:為了掌握你的告警事件響應(yīng)時(shí)間,在你已經(jīng)開始處理告警時(shí),強(qiáng)烈建議及時(shí)響應(yīng)認(rèn)領(lǐng),例如通過移動(dòng)端微信頁面移動(dòng)等方式及時(shí)認(rèn)領(lǐng)。這一點(diǎn)國(guó)外做的很棒,在短信電話移動(dòng)都可以很容易確認(rèn)認(rèn)領(lǐng)在微信端可以認(rèn)領(lǐng)和關(guān)閉。 這是《運(yùn)維不容錯(cuò)過的4個(gè)關(guān)鍵指標(biāo)》的姐妹篇,上篇文章介紹了優(yōu)秀運(yùn)維團(tuán)隊(duì)需要關(guān)注的4個(gè)關(guān)鍵指標(biāo),我們分享了平均恢復(fù)時(shí)間 MTTR、平均響應(yīng)時(shí)間 MTTA 等概念。這篇是介紹一些實(shí)踐方法,更好的...
摘要:總故障時(shí)間是關(guān)于告警事件數(shù)量與各告警事件時(shí)長(zhǎng)的函數(shù)。一個(gè)月的告警數(shù)據(jù)顯示平均響應(yīng)時(shí)間為分鐘平均解決時(shí)間為分鐘。確定團(tuán)隊(duì)領(lǐng)導(dǎo)人此人將在解決故障期間帶領(lǐng)團(tuán)隊(duì)工作。找到并解決問題事件解決時(shí)間大部分花在確定告警問題的過程中。 前不久,我們討論了運(yùn)維不容錯(cuò)過的 4個(gè)關(guān)鍵指標(biāo),其中平均解決時(shí)間(MTTR)被認(rèn)為是衡量業(yè)務(wù)的最佳標(biāo)準(zhǔn),隨后也分析了「告警等級(jí)」對(duì)MTTR的重要性。 正確看待 MTTR ...
摘要:告警當(dāng)一個(gè)問題通過告警系統(tǒng)將消息以短信電話郵件等方式告知給用戶時(shí),我們稱之為一條告警。圖統(tǒng)一告警系統(tǒng)結(jié)構(gòu)圖告警收斂對(duì)于告警平臺(tái)每天會(huì)產(chǎn)生數(shù)以萬計(jì)的告警,這些告警對(duì)于運(yùn)維或開發(fā)人員都需要去分析甄別優(yōu)先級(jí)并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測(cè)和告警是密不可分的,檢測(cè)用來發(fā)現(xiàn)異常,告警用來將問題信息發(fā)送給相應(yīng)的人。v...
摘要:阻塞,非阻塞首先,阻塞這個(gè)詞來自操作系統(tǒng)的線程進(jìn)程的狀態(tài)模型網(wǎng)絡(luò)爬蟲基本原理一后端掘金網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。每門主要編程語言現(xiàn)未來已到后端掘金使用和在相同環(huán)境各加載多張小圖片,性能相差一倍。 2016 年度小結(jié)(服務(wù)器端方向)| 掘金技術(shù)征文 - 后端 - 掘金今年年初我花了三個(gè)月的業(yè)余時(shí)間用 Laravel 開發(fā)了一個(gè)項(xiàng)目,在此之前,除了去年換工作準(zhǔn)備面試時(shí),我并...
摘要:阻塞,非阻塞首先,阻塞這個(gè)詞來自操作系統(tǒng)的線程進(jìn)程的狀態(tài)模型網(wǎng)絡(luò)爬蟲基本原理一后端掘金網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。每門主要編程語言現(xiàn)未來已到后端掘金使用和在相同環(huán)境各加載多張小圖片,性能相差一倍。 2016 年度小結(jié)(服務(wù)器端方向)| 掘金技術(shù)征文 - 后端 - 掘金今年年初我花了三個(gè)月的業(yè)余時(shí)間用 Laravel 開發(fā)了一個(gè)項(xiàng)目,在此之前,除了去年換工作準(zhǔn)備面試時(shí),我并...
閱讀 3094·2021-08-03 14:05
閱讀 2140·2019-08-29 15:35
閱讀 678·2019-08-29 13:30
閱讀 3169·2019-08-29 13:20
閱讀 2530·2019-08-23 18:15
閱讀 1796·2019-08-23 14:57
閱讀 2213·2019-08-23 13:57
閱讀 1310·2019-08-23 12:10