国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

AI時代的全鏈路監(jiān)控,阿里工程師怎么做?

jollywing / 1814人閱讀

摘要:背景近年來,隨著阿里新業(yè)務新技術的快速發(fā)展,傳統(tǒng)的業(yè)務總量監(jiān)控大盤已經越來越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個方面缺乏全局視角監(jiān)控大盤主要反映的是單個業(yè)務或應用的運行狀態(tài),缺少全局的業(yè)務視角能反應整個業(yè)務域的上下游整體的運行情況。

背景

近年來,隨著阿里新業(yè)務、新技術的快速發(fā)展,傳統(tǒng)的業(yè)務總量“監(jiān)控大盤”已經越來越不能滿足監(jiān)控需求,主要表現(xiàn)在以下幾個方面:

缺乏全局視角:“監(jiān)控大盤”主要反映的是單個業(yè)務或應用的運行狀態(tài),缺少全局的業(yè)務視角能反應整個“業(yè)務域”的上下游整體的運行情況。比如交易系統(tǒng)成功率下跌,想看看是不是優(yōu)惠出問題了,但是不知道“優(yōu)惠”的業(yè)務監(jiān)控在哪里,只能依賴"優(yōu)惠"的同學去排查,釘釘電話溝通,大家一起拼湊信息,上下游協(xié)調成本很高。

監(jiān)控標準不統(tǒng)一:一直以來“業(yè)務監(jiān)控”都是自定義的,依賴開發(fā)人員的個人經驗,往往系統(tǒng)、業(yè)務監(jiān)控混在一起,沒有標準,業(yè)務之間不能比較;各系統(tǒng)監(jiān)控能力參差不齊,很容易出現(xiàn)業(yè)務鏈路中的監(jiān)控斷層;業(yè)務監(jiān)控缺少一套行之有效的方法論,新人或者新業(yè)務對于業(yè)務要怎么監(jiān)控,不知道如何下手、不知道自己配的監(jiān)控是否覆蓋全面,只有等到故障發(fā)生以后才去補監(jiān)控。

缺少業(yè)務視角:隨著阿里業(yè)務飛速發(fā)展,特別是“大中臺”的建設,使得傳統(tǒng)的“總量”監(jiān)控已經不能滿足需求,比如一個“交易”中臺業(yè)務就會有數十個“業(yè)務方”調用,單純的總量監(jiān)控會把小調用量的業(yè)務淹沒,必須按每個業(yè)務方的“業(yè)務身份”進行監(jiān)控。對于像“盒馬”、“淘鮮達”這樣的新零售業(yè)務,這樣的問題更加突出,一家門店出現(xiàn)交易異常對于“交易總量”來說是微不足道的,但是對這件門店的客戶體驗來說是災難性的。

監(jiān)控配置成本高:“業(yè)務監(jiān)控”一直都是由“開發(fā)人員”純手工打造,需要經過日志埋點、監(jiān)控配置、報警閾值設置,整個過程費時費力,缺乏自動化、智能化監(jiān)控的手段,這也是造成各系統(tǒng)監(jiān)控能力參差不齊的重要原因,一些新業(yè)務因為無力投入大量精力配置監(jiān)控,導致業(yè)務監(jiān)控能力缺失。

全景式監(jiān)控

業(yè)務全鏈路監(jiān)控從業(yè)務的視角出發(fā),監(jiān)控整個業(yè)務流程的健康狀況,無需多個系統(tǒng)切換,直觀看到全局和上下游,方便快速發(fā)現(xiàn)、定位問題。

建立了完整的“業(yè)務監(jiān)控模型”,為業(yè)務建立起一個從“宏觀”到“微觀”的全景式業(yè)務監(jiān)控體系,結束了業(yè)務監(jiān)控沒有標準,只能純手工打造的歷史。業(yè)務監(jiān)控模型主要包括3部分:

● 業(yè)務域:一個完整的業(yè)務或產品稱為“業(yè)務域”,如電商的“交易域”、“營銷域”、“支付域”等。

● 業(yè)務活動:業(yè)務域中的的核心業(yè)務用例叫做“業(yè)務活動”,如交易域的“下單確認”、“創(chuàng)建訂單”等,業(yè)務活動是整個監(jiān)控模型的核心,每個業(yè)務活動都會有標準的【黃金指標】來反應自身的健康狀況,業(yè)務活動之間建立上下游關系就形成了業(yè)務鏈路。

● 系統(tǒng)服務:業(yè)務活動中的依賴的關鍵方法稱作“系統(tǒng)服務”,如“下單確認”包含:查詢會員、查詢商品、查詢優(yōu)惠等關鍵方法,每個系統(tǒng)服務也通過【黃金指標】來表示其健康狀況。

監(jiān)控流程

以“監(jiān)控模型”為基礎,我們總結出了一套如何做好“業(yè)務監(jiān)控”的方法論,并將其沉淀到產品中。

● 梳理關鍵業(yè)務: 業(yè)務方需要梳理出自己的核心業(yè)務是什么(業(yè)務活動),以及這些核心業(yè)務的關鍵依賴有哪些(系統(tǒng)服務)。

● 監(jiān)控數據埋點:提供了無侵入的配置化監(jiān)控SDK,只要將“業(yè)務活動”和“系統(tǒng)服務”對應的方法填寫到配置文件中即可,系統(tǒng)會自動收集,計算,上報監(jiān)控數據。

● 監(jiān)控鏈路:系統(tǒng)根據收集的數據自動生成業(yè)務鏈路,每個“業(yè)務活動”和“系統(tǒng)服務”節(jié)點都自動生成流量、耗時、成功率的黃金指標,同時每個‘節(jié)點’都可以通過鉆取查看詳細的監(jiān)控數據,包括:不同機房、單元、分組的數據對比,每個業(yè)務身份的明細調用情況等。

● 異常檢測:業(yè)務鏈路涉及節(jié)點眾多,必須要有完善的異常檢測機制來幫助用戶自動發(fā)現(xiàn)問題,我們提供了“智能基線預警”和“專家規(guī)則預警”相結合的異常檢測機制,無需用戶逐個配置報警規(guī)則,自動發(fā)現(xiàn)異常節(jié)點,實時將這些節(jié)點“標紅”,異常的詳細信息也會同步顯示,方便用戶快速發(fā)現(xiàn)和定位問題。

通過業(yè)務全鏈路監(jiān)控,可以做到對業(yè)務域的監(jiān)控標準化和全覆蓋,避免了自定義監(jiān)控覆蓋不全面、不標準、配置工作量大的問題,使得老板、PD、運營、監(jiān)控值班等用戶都可以快速了解業(yè)務是否有問題。

黃金指標

引入Google的黃金指標概念,改變了業(yè)務監(jiān)控完全依賴自定義的現(xiàn)狀,為業(yè)務監(jiān)控樹立了標準。

● 流量 :業(yè)務在單位時間內的調用量,如:服務的QPS、每秒訂單筆數等。

● 耗時 :業(yè)務的具體處理時長,需區(qū)分成功耗時和失敗耗時。

● 錯誤 :調用出錯數量、成功率、錯誤碼。

● 飽和度 :應用已使用資源的占比。

由于飽和度更多反應的是應用的層面情況,所以業(yè)務監(jiān)控使用流量、耗時、錯誤這三個指標就能很好的回答“業(yè)務”是否健康的問題,在“業(yè)務全鏈路監(jiān)控”中每個業(yè)務活動和系統(tǒng)服務都會標配這三個監(jiān)控指標。

除了黃金指標以外,還可以根據各自業(yè)務的不同特點,定義各種分維度的輔助指標,比如:按不同的業(yè)務身份,按商家、按門店分,不同的錯誤碼等等,用于進一步細化和定位

業(yè)務維度

傳統(tǒng)的“總量”指標已經不能滿足中臺、盒馬這樣的業(yè)務監(jiān)控需求了,通過可擴展的業(yè)務維度實現(xiàn)對業(yè)務身份、商家、門店的精細化監(jiān)控。像“交易”這樣的中臺業(yè)務會被幾十個業(yè)務方調用,總量沒有異常并不代表具體的業(yè)務方沒有問題,而是需要監(jiān)控每一個業(yè)務方各自的調用情況,只要有一個出現(xiàn)異常就要預警。

橫向業(yè)務維度:業(yè)務全鏈路監(jiān)控提供了“橫向業(yè)務維度”功能,能夠方便的配置“業(yè)務身份”、“商家”、“門店”等特定的業(yè)務維度,可以對一個業(yè)務域中所有的“業(yè)務活動”和“系統(tǒng)服務”按一個維度過濾,比如可以對交易鏈路按“盒馬”這個業(yè)務身份過濾,從而在鏈路上看到的是盒馬的交易調用情況。

配置化埋點

監(jiān)控SDK使用AOP切面技術實現(xiàn)了配置化埋點能力,業(yè)務系統(tǒng)引入監(jiān)控SDK后,通過簡單的一個配置文件即可完成監(jiān)控埋點,自動完成數據的攔截、計算、上報,與業(yè)務代碼完全解耦。

鏈路自動生成

自動生成應用核心鏈路、黃金指標、業(yè)務維度大盤,無需用戶配置,用戶還可以通過可視化編輯頁面對鏈路進行調整。

智能基線預警

通過機器學習快速預測指標的合理范圍,一旦超出邊界就會自動觸發(fā)報警,無需配置閾值。

智能基線預警已經在業(yè)務自定義監(jiān)控中得到了驗證(已經有超過1200指標接入),準確率和召回率相對于人工配置都有大幅提高,現(xiàn)在我們將該技術引入“業(yè)務全鏈路監(jiān)控”,實現(xiàn)對業(yè)務活動的智能異常檢測,全程無人參與。

實戰(zhàn)

實戰(zhàn)1-交易全局鏈路

交易域的全局業(yè)務鏈路,鏈路中列出交易的關鍵“業(yè)務活動”,省略了每個業(yè)務活動的“系統(tǒng)服務”等細節(jié),主要用于全鏈路壓測,大促投屏等需要關注全局狀態(tài)的業(yè)務場景,已在6.18大促中得到實際應用。

實戰(zhàn)2-交易核心鏈路

交易是整個電商的核心,我們通過“鏈路自動生成”能力生成了核心業(yè)務鏈路,其中綠色節(jié)點為“業(yè)務活動”,黃色節(jié)點為“業(yè)務活動”依賴的“系統(tǒng)服務”。

通過業(yè)務鏈路可以很方便了解交易活動的運行狀況,一旦業(yè)務活動出現(xiàn)問題也可以更加直觀的發(fā)現(xiàn)與下游依賴的關系。

實戰(zhàn)3-POS服務端鏈路

POS是整個新零售場景線下支付場景的交易核心,下線支付場景對交易系統(tǒng)提出更加嚴格的可靠性要求,通過POS業(yè)務鏈路可以很好的監(jiān)控POS交易各環(huán)節(jié)的運行情況,及時發(fā)現(xiàn)交易異常。

同時POS鏈路添加了“商家”、“門店”的業(yè)務維度,可以實時切換“盒馬”,“大潤發(fā)”等不同商家的POS交易情況,實現(xiàn)針對每個商家精細化監(jiān)控。

本文作者:勁節(jié)

閱讀原文

本文來自云棲社區(qū)合作伙伴“阿里技術”,如需轉載請聯(lián)系原作者。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19795.html

相關文章

  • 直擊六大會場 | 洞察100+創(chuàng)新實踐,2018TOP100summit圓滿落幕!

    摘要:北京時間月日月日,由和中國國際人才交流基金會聯(lián)合主辦的第七屆全球軟件案例研究峰會簡稱在北京國家會議中心圓滿落幕。本屆峰會,來自阿里美團百度平安銀行等企業(yè)的講師分別從企業(yè)轉型及研發(fā)效能方面分享敏捷和的實踐細節(jié)和操作經驗。 北京時間11月30日-12月3日,由msup和中國國際人才交流基金會聯(lián)合主辦的第七屆全球軟件案例研究峰會(簡稱:TOP100summit)在北京國家會議中心圓滿落幕。T...

    YacaToy 評論0 收藏0
  • 螞蟻金服數據質量治理架構與實踐

    摘要:演講中,李俊華介紹了螞蟻金服數據架構體系的免疫系統(tǒng)數據質量治理體系,此外還著重介紹了數據質量實施的相關內容,以及螞蟻的數據質量治理實踐與所面對的實際挑戰(zhàn)。 摘要:以數字金融新原力(The New Force of Digital Finance)為主題,螞蟻金服ATEC城市峰會于2019年1月4日上海如期舉辦。金融智能專場分論壇上,螞蟻金服數據平臺部高級數據技術專家李俊華做了主題為《螞...

    張憲坤 評論0 收藏0
  • 阿里數據庫十年變遷,那些你不知道的二三事

    摘要:今天,阿里數據庫事業(yè)部研究員張瑞,將為你講述雙數據庫技術不為人知的故事。這十年,阿里巴巴數據庫團隊一直有一個使命推動中國數據庫技術變革。 第十個雙11即將來臨之際,阿里技術推出《十年牧碼記》系列,邀請參與歷年雙11備戰(zhàn)的核心技術大牛,一起回顧阿里技術的變遷。 今天,阿里數據庫事業(yè)部研究員張瑞,將為你講述雙11數據庫技術不為人知的故事。在零點交易數字一次次提升的背后,既是數據庫技術的一次...

    greatwhole 評論0 收藏0

發(fā)表評論

0條評論

jollywing

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<