摘要:例如,把提示無效信用卡賬號的告警替換為一個可執行的告警,比如指示用戶支付成功率急劇下降的告警可能系統會做出較大的變化,需要回滾操作。因此,不斷完善告警也是同樣非常重要的,所以要養成定期瀏覽和刪除不可執行告警的習慣。
對于運維團隊而言,很多告警其實并不能幫助他們解決掉實際的問題,相反有時會加重多余的負擔,這主要是因為大多數的告警并不具備足夠的可執行性:
它們指出的問題壓根兒不需要響應
它們缺少關鍵的信息,迫使你需要花費很長的時間去尋找更多的源頭,用以來估量它們的緊迫性
過量的不可執行告警會造成告警疲勞,浪費時間和資源,從而耽誤你解決實質性的問題,可能這些已經在你身邊正悄無聲息地發生著:
你是否自動忽略收到的多余告警?
你是否收到很多與你無關的告警?
每當你收到告警時,是否為了獲得你真正需要的信息而采取一系列常規的行動?
如果有以上這樣的情況,就能確定你是在遭受著告警疲勞,本篇將會列出四種常見的不可執行告警及其解決辦法。
問題:標題是告警的重要組成部分,因為它是你第一眼看到的東西。含糊不清的標題會迫使人們為了獲取更多的信息而對告警主體進行不必要的挖掘,而當不同的告警使用相似的標題時,會使你感到更加沮喪、困惑,導致時間和精力上的浪費。
例子:在收到標題為「CPU LOAD 1.90」的告警后,你又收到一個標題為「CPU LOAD 1.80」的告警。這倆告警是否是關于同一個服務器的呢?負載1.80是否關鍵?這個問題會有什么影響?如果告警能提供解答而不是添加更多的問題,豈不是更好嗎?
改進措施:所有的告警標題都應該簡短且具有一定的描述性,它們應該讓人在看到第一眼的時候就知道問題是什么,出現在哪里并且需要怎樣去解決。例如「Server billing-1 load is critical for 5 min」就比「CPU LOAD 1.80」更具有執行性。
問題:告警的內容通常是有限或者模糊的,導致我們為了獲取更深層次的理解,往往會花費大量的時間去解讀這些告警,以求查找到更多的信息。有時,在 Nagios,Graphite,Pingdom 或 New Relic 的某處發現了相關的信息,但實際上大量的時間并不是用在了解決問題上,而是花在了尋找上面。
例子:在解決服務器過載問題時,大家都是使用著差不多的套路:譬如連接服務器,查看 load 值等。而且,下次一個相似的告警發生時,你還得一次次地執行這些相同的步驟。
改進措施:我們熟練的打開操作系統鍵入問題信息,來追蹤那些告警的源頭去進行整體考量。假如告警信息這個載體能呈現給我們更多有用的源信息的話,比如:執行的行為或者相關資源的鏈接(這些資源包括腳本、協議或者研發者對問題發生原因的理解),那么對于決策和追蹤排查的效能就會有很明顯地提升.
問題:生產環境是復雜且動態的。為了保持系統的穩定性,運維和研發團隊需要讀取到重要的系統信息。直覺告訴我們,這需要將每個告警和異常通知都給到這些人,然而實際上,大多數的告警收到后并沒有采取有效措施,并且還時常會把有用的告警覆蓋掉。
例子:用戶輸入無效的信用卡賬號,會立即發送告警,這個信息應該非常值得關注才對。但我們不能控制用戶的行為,所以一般情況下這個告警只是額外的噪聲而已,對此我們也毫無辦法。
改進措施:如果收到告警后不能立即采取行動,那就別發送它,而去找到需要你做出反應的問題。例如,把提示無效信用卡賬號的告警替換為一個可執行的告警,比如指示用戶支付成功率急劇下降的告警———可能系統會做出較大的變化,需要回滾操作。另外一種解決辦法是采用每日或每周報告,匯總不需要實時處理的信息。這樣,真正有用的信息就可以實時地被接收來處理。
問題:在很多公司中,每個人都接收著所有的告警———這種工作模式通常用于小團隊,每個人都參與著所有的事情。然而,當團隊規模變大,人們開始分工時,「告警風暴」很快就變成了拖累。
例子:我們使用的第三方支付提供的數據庫連接出現了問題,此時交給DBA團隊處理并不能很好的FIX掉問題,還很有可能因為其他原因被忽視。
改進措施:只向和告警相關的人發送告警。由于告警會由多個不同的來源導致,在這些情況下,我們可以為每個來源創建特定的告警,選擇指定的路徑,使決策更加合理化。
具有執行性的告警可以大大減輕你的痛苦,提高每天的工作效率。通過上面提到的簡單改變,可以產生巨大的影響。在如今快節奏的環境中,可執行的告警也許很快就變得不相干了。因此,不斷完善告警也是同樣非常重要的,所以要養成定期瀏覽和刪除不可執行告警的習慣。
在 OneAlert,我們重點幫助你更好地管理、追蹤、休止和分派你的告警,當然如果你有其他對抗告警可執行性地措施,也歡迎在評論區留下你寶貴的意見。
本文轉自 OneAPM 官方博客
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/7965.html
摘要:調查研究表明,當數據中心停機時間的損失平均每分鐘近,美元時,避免這種事件是節省數據中心成本的首個也是效果最為顯著的方法。在調研機構波洛蒙研究所進行的一項年調查中,數據中心停機的平均損失超過萬美元,最高的損失達到萬美元以上。調查研究表明,當數據中心停機時間的損失平均每分鐘近9,000美元時,避免這種事件是節省數據中心成本的首個也是效果最為顯著的方法。不過,以下有四種方法可以幫助組織的數據中心避...
摘要:告警關聯唯一使監控和報警都步入正軌的好辦法,就是通過告警關聯。企業如果適應了告警關聯,信息告警的圖表盤上確實能減少很多壓力。 上節回顧 對于許多 IT 和運維團隊來說,Nagios 既是一個福音也是一個詛咒。一方面,Naigos 在 IT 應用的工作領域中,給予了你可以實時查看告警數據的可能性;但是另一方面,Nagios 也能夠生成超級多的告警,對于任何一個運維人員或是運維團隊來說都是...
摘要:再如通過處理流數據生成簡單的報告,如五分鐘的窗口聚合數據平均值。復雜的事情還有在流數據中進行數據多維度關聯聚合塞選,從而找到復雜事件中的根因。因為各種需求,也就造就了現在不斷出現實時計算框架,而下文我們將重磅介紹我們推薦的實時計算框架。 前言 先廣而告之,本文摘自本人《大數據重磅炸彈——實時計算框架 Flink》課程第二篇,內容首發自我的知識星球,后面持續在星球里更新,這里做個預告,今...
閱讀 2684·2021-10-22 09:55
閱讀 2008·2021-09-27 13:35
閱讀 1267·2021-08-24 10:02
閱讀 1478·2019-08-30 15:55
閱讀 1198·2019-08-30 14:13
閱讀 3471·2019-08-30 13:57
閱讀 1975·2019-08-30 11:07
閱讀 2447·2019-08-29 17:12