文章前言
技術背景
問題描述
發(fā)送告警信息的定時任務無法執(zhí)行,報錯輸出文件目錄不存在。
發(fā)送告警信息的定時任務(send_JF.sh)無法執(zhí)行,報錯系統(tǒng)JF不存在。
檢查MGR進程參數(shù):不論MGR進程是否為手動創(chuàng)建,都要仔細檢查其參數(shù)配置。推廣到更一般的情況,就是在進行操作時,對所有與該操作有關的信息進行核查。
告警腳本完整測試:部署告警腳本的時候,需要對所有涉及的腳本進行測試。推廣到更一般的情況,就是在進行操作時,對所有可能觸發(fā)該操作的情況進行校驗。
引發(fā)思考
更多拓展
總 結
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129671.html
摘要:隨著人工智能時代的到來,攜程生產(chǎn)環(huán)境運維進入了新的運維時代。本文選取了幾種典型的運維場景對在攜程的踐行展開了介紹,首先讓我們從概念認識下。針對應用異常指標檢測這種場景,抽取一定的樣本統(tǒng)計,在基于專家經(jīng)驗標注下的準確率可達到以上,召回率接近。 作者簡介徐新龍,攜程技術保障中心應用管理團隊高級工程師,負責多個AIOps項目的設計與研發(fā)。信號處理專業(yè)碩士畢業(yè),對人工智能、機器學習、神經(jīng)網(wǎng)絡及數(shù)學有...
摘要:相當于分布式數(shù)據(jù)庫的大腦,一方面負責收集和維護數(shù)據(jù)在各個節(jié)點的分布情況,另一方面承擔調(diào)度器的角色,根據(jù)數(shù)據(jù)分布狀況以及各個存儲節(jié)點的負載來采取合適的調(diào)度策略,維持整個系統(tǒng)的平衡與穩(wěn)定。原文鏈接雷神自動化運維平臺 作者:瞿鍇,同程藝龍資深 DBA 背景介紹 隨著互聯(lián)網(wǎng)的飛速發(fā)展,業(yè)務量可能在短短的時間內(nèi)爆發(fā)式地增長,對應的數(shù)據(jù)量可能快速地從幾百 GB 漲到幾百個 TB,傳統(tǒng)的單機數(shù)據(jù)庫提...
摘要:為了掌握你的告警事件響應時間,在你已經(jīng)開始處理告警時,強烈建議及時響應認領,例如通過移動端微信頁面移動等方式及時認領。這一點國外做的很棒,在短信電話移動都可以很容易確認認領在微信端可以認領和關閉。 這是《運維不容錯過的4個關鍵指標》的姐妹篇,上篇文章介紹了優(yōu)秀運維團隊需要關注的4個關鍵指標,我們分享了平均恢復時間 MTTR、平均響應時間 MTTA 等概念。這篇是介紹一些實踐方法,更好的...
摘要:告警當一個問題通過告警系統(tǒng)將消息以短信電話郵件等方式告知給用戶時,我們稱之為一條告警。圖統(tǒng)一告警系統(tǒng)結構圖告警收斂對于告警平臺每天會產(chǎn)生數(shù)以萬計的告警,這些告警對于運維或開發(fā)人員都需要去分析甄別優(yōu)先級并處理故障。 一、背景一套監(jiān)控系統(tǒng)檢測和告警是密不可分的,檢測用來發(fā)現(xiàn)異常,告警用來將問題信息發(fā)送給相應的人。v...
閱讀 1346·2023-01-11 13:20
閱讀 1684·2023-01-11 13:20
閱讀 1132·2023-01-11 13:20
閱讀 1858·2023-01-11 13:20
閱讀 4100·2023-01-11 13:20
閱讀 2704·2023-01-11 13:20
閱讀 1385·2023-01-11 13:20
閱讀 3597·2023-01-11 13:20