摘要:健全的告警分析體系真正認識你的團隊好的告警分析機制能夠幫助管理者分析團隊整體的工作情況,根據作為評判標準。根據告警內容分析也是很有必要的,能夠幫助團隊管理者對資源進行適當的調整,工作重心的調整。
「路漫漫其修遠兮,吾將上下而求索」,「轉身」不見得華麗,但我必須「轉身」,不要安逸于現在的運維狀況。
如果你運維一線人員,是否會遇到以下情況:
公司所有的服務器告警消息會塞滿自己的整個郵箱,如果公司的運維團隊有幾個人到幾十人不等,當你處理郵箱中的告警消息的時候,處理一半會發現問題已經解決了,這個現象很常見,會導致工作效率的下降。改善的方法有很多,比如團隊內部多一些溝通,然而溝通的成本也是非常高的。解決問題應該從源頭出發,治標不治本的方法還是應該適當采取。也許你在創業團隊工作,團隊中只有一個人,但是也希望你能讀完本篇文章,等團隊壯大之后也會有幫助!
單一的告警通知方式會麻木運維同學的工作思維,一天 24 小時接收的都是郵件或者短信的告警通知。我們更希望白天工作時間使用郵件、微信、APP 等輕量級的通知方式,晚上休息時間使用短信、電話等偏重的通知方式。這樣不僅白天能夠提高工作效率,而且能夠晚上好好休息,不用擔心告警疏漏。如果能有排班通知,那么就真正能「睡個好覺」了。
如果你是運維 Team Leader,是否會遇到以下情況:
如果你是團隊的管理人員,是否會遇到以下情況:
團隊一直在解決故障,但對系統性能沒有整體的把握;你對團隊、成員的工作量,工作效率沒有全面的了解。你肯定不希望這樣管理你的團隊,不希望團隊重復解決某些事情,更不希望因為這些問題讓團隊士氣低落,覺得工作沒有干勁。
團隊一直在重復解決某一故障,但是卻因為缺少一個好的分析工具,導致無用功重復執行。比如經常收到「127.0.0.1」服務器內存使用率超過90%,嚴重級別高’的告警消息,通過對告警消息分析,此告警消息在本月出現頻率最高,此時是否能夠根據此告警對服務器做出一些硬件上的調整來減少告警的噪聲?
解決以上可能出現的問題,你需要:
合適通知體系
合理的通知方式
健全的告警分析機制
合適的通知體系 ------- 你的鍋你來背
根據不同的主機組把告警發給不同的一線成員,可有效解決告警分派的問題,并且能夠使團隊責任劃分清晰。每個人負責一部分服務器,出現問題之后,告警消息只會通知自己,避免對其他同事的工作造成干擾。那如果這位同事遺漏了告警怎么辦?告警消息不被團隊的其他人知曉,解決時間會存在嚴重的問題。這時需要一個有效的升級機制,告警在設置時間內不確認、不解決的時候,會升級到二線值班人員,二線一般都是領導級別的了,如果告警真的升級了,那你就…………。所以在第一時間接收到告警消息,第一時間解決掉是非常關鍵的,這時我們就需要有多種通知方式,合理的通知方式。
合理的通知方式 ------- 對的時間遇上對的人
不要在錯的時間遇上對的人。 當告警消息來了,選擇一個好的通知方式是至關重要的。比如白天工作時間,告警消息的推送只需要通過微信、郵件的方式。而晚上下班時間休息時間,告警消息推送可以選擇短信和電話兩種方式進行通知,靈活的通知方式能夠達到事半功倍的效果。告警通知很及時,那怎么衡量團隊的工作效率、個人的工作效率呢?根據什么標準來衡量呢?這時有一個健全告警分析機制是很關鍵的。
健全的告警分析體系 ------- 真正認識你的團隊
好的告警分析機制能夠幫助管理者分析團隊整體的工作情況,根據 MTTR 作為評判標準。通過告警分析能夠分析出某一告警應用某段時間內處理情況。
根據告警內容分析也是很有必要的,能夠幫助團隊管理者對資源進行適當的調整,工作重心的調整。
當然對團隊成員的工作進行分析也是非常有必要的,OneAlert 對成員處理告警的分析即將上線。
健全的告警分析是一個運維管理團隊必須的,我們能夠在其中發現很多的團隊問題,然后進行適當的調整,把團隊的整體 KPI 提高,士氣提高!希望本篇文章能夠對你有用。
OneAlert 是北京藍海訊通科技有限公司旗下產品,中國首個 SaaS 模式的云告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理所有IT事件,提升IT可靠性。想了解更多信息,請訪問 OneAlert 官網 。
本文轉自 OneAPM 官方博客
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/7961.html
摘要:隨著人工智能時代的到來,攜程生產環境運維進入了新的運維時代。本文選取了幾種典型的運維場景對在攜程的踐行展開了介紹,首先讓我們從概念認識下。針對應用異常指標檢測這種場景,抽取一定的樣本統計,在基于專家經驗標注下的準確率可達到以上,召回率接近。 作者簡介徐新龍,攜程技術保障中心應用管理團隊高級工程師,負責多個AIOps項目的設計與研發。信號處理專業碩士畢業,對人工智能、機器學習、神經網絡及數學有...
摘要:平均解決事件解決時間是衡量業務準備的最佳標準。平均每小時折合損失。說明整個團隊的響應及時率是不錯的。小結致力減少告警數量及時響應如果不能及時響應,能夠升級處理,最終提升解決時間,個核心關鍵指標是運維支撐工作非常關鍵的指標。 很難說,生活在這個數據大爆炸的時代對運維同學是福還是禍。靈活的監控系統、開放 API 和易用的數據可視化資源可以將任何想要的數據圖表化地顯示出來,但是,過多的數據容...
摘要:例如,把提示無效信用卡賬號的告警替換為一個可執行的告警,比如指示用戶支付成功率急劇下降的告警可能系統會做出較大的變化,需要回滾操作。因此,不斷完善告警也是同樣非常重要的,所以要養成定期瀏覽和刪除不可執行告警的習慣。 對于運維團隊而言,很多告警其實并不能幫助他們解決掉實際的問題,相反有時會加重多余的負擔,這主要是因為大多數的告警并不具備足夠的可執行性: 它們指出的問題壓根兒不需要響應 ...
摘要:導讀為數人云系列活動專題,本文是月日北京站線下活動當西方的遇上東方的互聯網中京東金融王超老師的分享。王超京東金融企業高級目前在京東金融平臺負責一個人左右的應用運維團隊團隊,也曾負責人人網團隊。 導讀:[GO SRE!] 為數人云SRE系列活動專題,本文是3月4日北京站線下活動當西方的SRE遇上東方的互聯網中京東金融王超老師的分享。 他將從SRE,Devops, PE間的關系開始,介紹企...
摘要:導讀為數人云系列活動專題,本文是月日北京站線下活動當西方的遇上東方的互聯網中京東金融王超老師的分享。王超京東金融企業高級目前在京東金融平臺負責一個人左右的應用運維團隊團隊,也曾負責人人網團隊。 導讀:[GO SRE!] 為數人云SRE系列活動專題,本文是3月4日北京站線下活動當西方的SRE遇上東方的互聯網中京東金融王超老師的分享。 他將從SRE,Devops, PE間的關系開始,介紹企...
閱讀 2695·2023-04-25 21:26
閱讀 1514·2021-11-25 09:43
閱讀 1949·2019-08-30 15:52
閱讀 931·2019-08-30 14:05
閱讀 2614·2019-08-29 16:10
閱讀 414·2019-08-29 13:48
閱讀 1860·2019-08-29 12:47
閱讀 1299·2019-08-23 18:04