国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

記一次基于智慧運維平臺故障自愈場景的“探索”

IT那活兒 / 1205人閱讀
記一次基于智慧運維平臺故障自愈場景的“探索”

隨著智慧運維平臺的不斷落地,我們基于平臺能力,落地了很多場景,監控、告警、運維操作等等,但我們的監控場景與運維操作場景依然還是分段式的,平臺監測到故障告警,依舊需要運維人員根據告警內容去判斷執行相對應的運維操作。

如何將監控、告警能力與運維操作能力結合,使之成為一套完整的自動化流程?這就是本篇我們分享的主題——基于智慧運維平臺故障自愈場景的小“探索”。





場景介紹




基于智慧運維平臺監控weblogicserverFullGC情況,模擬觸發FullGC告警,再基于平臺ATM模塊編排自愈運維操作,在告警產生后自動觸發故障自愈操作,完成自愈操作。

監控自愈流程如下:

場景要素提煉:
  • 基于AMP監控采集FullGC信息,同時針對監控項配置告警觸發器

  • 基于ATM配置自愈操作,完成故障時刻信息搜集、server重啟

  • 綁定告警與自愈操作,使告警產生后自動觸發完成自愈動作

  • 模擬FullGC場景,觸發故障自愈流程





場景配置






GC信息監控、告警配置
監控配置模塊,相信各地已經玩的很溜了,也不是本文探究的主題,在此就不占用太多的篇幅去介紹如何去基于AMP接入監控了。我們在測試環境部署了一套weblogicserver,將GC信息接入平臺監控:

同時針對JVM堆old區使用率配置了告警觸發器(PS:GC監控場景有很多,如:FullGC次數、持久代使用率、O區使用率等等,本次僅以O區使用率作為驗證場景)。



自愈操作配置
同樣針對操作編排的配置,相信大家也都有用過,本文也不做詳細贅述。針對本次測試,我們在ATM模塊簡單配置了一個weblogic自愈操作:

操作內容也很簡單,搜集了故障時刻server的堆棧信息treaddump、heapdump(PS:由于是測試,未做過多的信息搜集),之后便進行了服務重啟動作,腳本配置了采用local模式執行。



綁定告警與自愈操作
配置故障自愈方案,當配置了故障處理方案且符合觸發條件的告警產生時,故障自愈方案可自動執行,對Server進行應急處理,達到快速解決故障的目的。

可在監控模板告觸發器配置時,“故障自愈”頁面配置操作綁定

或者在配置管理的“告警自愈配置”模塊新增自愈配置,綁定監控模板和觸發場景。兩個頁面配置類似,見下圖,在故障自愈方案選擇田間之前在ATM配置好多自愈操作:

配置完成后,如下圖,則新增了一條故障自愈策略,“啟用狀態”開啟,“自動執行”狀態開啟。其中自動執行狀態若是未開啟,則告警產生后需要手動觸發自動動作,可以根據具體需要設定。

至此,一個簡單的故障自愈場景算是配置完成了。





測試驗證




在模擬FullGC場景之前,我們先來觀察一下正常情況下,weblogicserver的GC情況,如下圖,JVMold區使用率較低,穩定在12.4%左右,FGC次數也僅有3次。

當模擬觸發了FullGC場景后,weblogicserver進程的FULLGC頻繁執行,old區使用率也接近100%。

觀察平臺,告警如期觸發:

自愈動作在告警觸發后同樣觸發,如下圖,自愈觸發記錄

觸發自愈操作,搜集信息及weblogicserver信息,如下圖,服務重啟,證實自愈動作作發生:

通過平臺GC信息采集看,JVM堆Old區使用率在觸發FULLGC前后的變化趨勢圖,從10%->100%->10%,恢復到正常水平。

Weblogicserver在模擬FullGC并自愈前后GC次數的變化趨勢圖如下圖所示,FullGC次數迅速增加,觸發自愈動作重啟實例后,FULLGC再次恢復實例啟動狀態。

自愈后告警狀態自動變更為“已恢復”,至此,自愈流程驗證完成。

以上便是通過智慧運維平臺AMP監控場景、ATM運維操作場景結合,以完成從監控,到告警產生,再到故障自愈的一次“探索”。過程略簡陋了些,在實際運維中,自愈場景需要考慮的點有很多,如自動or手動觸發自愈,自愈搜集哪些信息,如何確保自愈動作100%完成,風險等等,都是需要我們根據不同的故障場景,去探究分析一套安全有效的解決方案。




END




文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129945.html

相關文章

  • 解密百度智能運維工程架構建設

    摘要:作者介紹王藝,百度云智能運維架構研發負責人。年轉向運維方向,作為智能運維架構方向的技術負責人,致力于為百度智能運維平臺和產品提供高性能高可用可擴展的系統架構和基礎設施。持續的數據建設,是智能運維建設的關鍵。 作者介紹王藝,百度云智能運維架構研發負責人。2010年加入百度,先后負責百度鏈接庫、百度志愿計算、百度統一資源管理的研發,經歷過千億級網頁鏈接的洗禮,也調度過數十萬量級的服務器,熱衷于直...

    HtmlCssJs 評論0 收藏0
  • 阿里如何做到百萬量級硬件故障自愈?

    摘要:只有當超時故障扇區等明確故障項出現后,兩者關聯才確診硬盤故障,否則只是隔離觀察,不報修。如果存在進程住時間超過分鐘,我們認為這個硬盤故障的影響面已擴大到了整機,需要進行重啟消除影響。 隨著阿里大數據產品業務的增長,服務器數量不斷增多,IT運維壓力也成比例增大。各種軟、硬件故障而造成的業務中斷,成為穩定性影響的重要因素之一。本文詳細解讀阿里如何實現硬件故障預測、服務器自動下線、服務自愈以...

    Sanchi 評論0 收藏0
  • 智能化數據中心如何建設

    摘要:智能化數據中心發展的三部曲在中國電信北京研究院副總工程師楊明川看來,智能化的數據中心的發展可以被歸納為三個階段。而在最終階段,則是希望能夠實現完全自動化的數據中心。對此,中國電信正在積極思考在未來智能化的數據中心里可以做一些什么樣的探索。這其中,智能化的數據中心包含兩方面含義,一方面是數據中心如何基于海量數據,利用人工智能的技術,進一步去優化數據中心的運營;另個方面是數據中心會越來越多地去承...

    hsluoyz 評論0 收藏0
  • 這場金融網絡盛宴 華為又要秀出哪些前瞻性布局?

    摘要:最新發布的全球半年度行業云跟蹤報告也顯示,年全球四大行業金融制造醫療和公共部門的行業云支出總額將高達億美元。這樣一來,華為的金融網絡能夠獲得市場的青睞也就順理成章了。金融業數字化轉型的加速,使得金融云越來越成為行業標配;但金融云的普及,又讓傳統網絡技術架構受到了前所未有的沖擊。這樣看來,邏輯就簡單了:金融業必須先推動傳統網絡技術架構的升級,促進金融云的普及應用,才能進一步實現自身的數字化轉型...

    crossoverJie 評論0 收藏0
  • Cube如何助力科盾業務容器化“一步到位”?

    前言 以Docker為代表的容器技術縮短了企業應用從開發、構建到發布、運行的整個生命周期。Gartner推測到2022年將會有75%的全球化企業將在生產中使用容器化的應用(當前約為30%)。由于Docker往往難以獨立支撐起大規模容器化部署,因此誕生了Kubernetes等容器編排工具,解決了大規模容器的組織和管理難題。 但事實上,Kubernetes的使用體系還是非常復雜的,對于企業的開...

    happyhuangjinjin 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<