摘要:解決突發事故意味著什么通常認為解決突發事故是積極舉措。以平均恢復前時間為評估手段可能會掩飾警示,將紅燈變為安全的綠燈。迅速解決突發事故是否總是最佳選擇在領域,僅評估影響業務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。
在團隊紛紛談起工作效率的時候,對運維工作者,他們通常喜歡用「故障的平均解決時間」來衡量團隊的工作效率。然而這往往是不正確的。一個迅速解決大量突發事故的團隊十分高效,而實際上這更有可能意味著該團隊的基礎設施十分脆弱易損。那我們應該使用什么標準來衡量團隊的工作效率呢?
**本文系國內 ITOM 管理平臺 OneAPM 翻譯整理自Dan Turchin 2015 撰寫的文章
《What is MTTR?Or why not to feed the baby cognac》,**
MTTR(平均恢復前時間)是什么?我們不已字面的角度去回答它,這個提問更傾向于它的哲學意義。基于解決突發事故的時間來測量評估工作效率已經過于絕對,顯得老舊。就如同大海中的一帆孤舟,漂泊不定,不知方向。
如同禪宗關于只手之聲的謎語一般,解謎的要點是首先提問如下問題:
什么是突發事故?
解決突發事故意味著什么?
解決問題是不是越快越好?
我的答案如下:
(突發事故)是對人、進程或事物有負面影響的,被某些非預期行為觸發的問題。它們通常是更嚴重問題的征兆,經常可能導致系統或者業務發生毀滅性的的災難。并且通常能經由常規方式修復,比如重啟機器、重新連接、重啟程序三部曲。
但是對于IT運維的目標,并不是通過修復自己制造的問題而獲取贊譽,而是經營一個不會出現大量突發事故的健康的服務器環境。由「平均恢復前時間」所驅動的生產運作系統管理通常會誤認為,一個迅速解決大量突發事故的團隊十分高效,而實際上這更有可能意味著該團隊的基礎設施十分脆弱易損。
通常認為解決突發事故是積極舉措。然而事實上解決突發事故時,正確的做法是首先判定被評估對象。以「平均恢復前時間」為評估手段可能會掩飾警示,將紅燈變為安全的綠燈。其他度量手段,例如平均故障間隔時間,對于判定基礎設施是否保持一貫健康運行狀態而言,是更佳的度量指標。
在IT領域,僅評估影響業務正常運行的時間無異于給嬰兒浸有白蘭地的奶嘴。雖然孩子迅速停止哭泣,但他的爸爸卻可能因此入獄(然而媽媽絕對不會作出給嬰兒喂酒的糟糕決斷)。
(平均恢復前時間)是討論運營卓越性的基點。它的價值在每個企業中不盡相同,且是眾多評價健康進程和基礎設施的指標之一。最好的統計方法是計算全時段所有突發事件在「未解決狀態」下的時長,而不是事件「被解決」狀l態下的時長除以突發事件總數。在后一種情況下,(系統正常運行)持續時間是基于機器時間戳(區別于運營人員提供的狀態改變點)進行計算的,此時機器會使用監測數據(作為基線),重啟的相同突發事件(或稱為震蕩)總會被認定為獨立突發事件。
請不要把這篇文章看做是 IT 技術準則的無端攻擊,請將它看作是一封邀請信,邀請你花半個小時來評估 MTTR 否是與商業價最契合的度量手段。
OneAlert 是北京藍海訊通科技有限公司旗下產品,中國首個 SaaS 模式的云告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請訪問 OneAlert 官網 。
本文轉自 OneAPM 官方博客
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/7962.html
摘要:平均解決事件解決時間是衡量業務準備的最佳標準。平均每小時折合損失。說明整個團隊的響應及時率是不錯的。小結致力減少告警數量及時響應如果不能及時響應,能夠升級處理,最終提升解決時間,個核心關鍵指標是運維支撐工作非常關鍵的指標。 很難說,生活在這個數據大爆炸的時代對運維同學是福還是禍。靈活的監控系統、開放 API 和易用的數據可視化資源可以將任何想要的數據圖表化地顯示出來,但是,過多的數據容...
摘要:告警當一個問題通過告警系統將消息以短信電話郵件等方式告知給用戶時,我們稱之為一條告警。圖統一告警系統結構圖告警收斂對于告警平臺每天會產生數以萬計的告警,這些告警對于運維或開發人員都需要去分析甄別優先級并處理故障。 一、背景一套監控系統檢測和告警是密不可分的,檢測用來發現異常,告警用來將問題信息發送給相應的人。v...
摘要:總故障時間是關于告警事件數量與各告警事件時長的函數。一個月的告警數據顯示平均響應時間為分鐘平均解決時間為分鐘。確定團隊領導人此人將在解決故障期間帶領團隊工作。找到并解決問題事件解決時間大部分花在確定告警問題的過程中。 前不久,我們討論了運維不容錯過的 4個關鍵指標,其中平均解決時間(MTTR)被認為是衡量業務的最佳標準,隨后也分析了「告警等級」對MTTR的重要性。 正確看待 MTTR ...
摘要:為了掌握你的告警事件響應時間,在你已經開始處理告警時,強烈建議及時響應認領,例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒,在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。 這是《運維不容錯過的4個關鍵指標》的姐妹篇,上篇文章介紹了優秀運維團隊需要關注的4個關鍵指標,我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的...
閱讀 3543·2023-04-25 19:56
閱讀 1660·2021-11-12 10:36
閱讀 1781·2021-11-08 13:19
閱讀 1544·2019-08-30 14:06
閱讀 3032·2019-08-30 11:01
閱讀 1711·2019-08-29 13:23
閱讀 2731·2019-08-29 11:18
閱讀 3422·2019-08-26 13:35