国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

阿里巴巴運(yùn)維體系變遷史

MobService / 2519人閱讀

摘要:反正在阿里巴巴,很多的運(yùn)維人員都說(shuō)了,我們每年的工作中有一項(xiàng)不用寫的工作就是搬遷。未來(lái)我們確實(shí)相信阿里巴巴,可能在未來(lái)搬遷會(huì)相對(duì)更少一點(diǎn),我們認(rèn)為不能讓搬遷成為阿里巴巴運(yùn)維團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力。以上,正是阿里巴巴的運(yùn)維團(tuán)隊(duì)所覆蓋的五個(gè)領(lǐng)域。

隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)和 AI 技術(shù)的飛速發(fā)展,智能化運(yùn)維成為運(yùn)維的熱點(diǎn)領(lǐng)域。Gartner 的報(bào)告宣稱,到 2020 年,將近 50% 的企業(yè)將會(huì)在他們的業(yè)務(wù)和 IT 運(yùn)維方面采用 AIOps,遠(yuǎn)遠(yuǎn)高于今天的 10%。盡管 AIOps 還是一個(gè)新名詞,但它無(wú)疑代表了運(yùn)維未來(lái)的一種趨勢(shì)。

智能化運(yùn)維的終極目標(biāo),就是將運(yùn)維人員從繁瑣的工作中解放出來(lái),提高整體運(yùn)維效率,降低運(yùn)維成本,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的高可用性。

運(yùn)維環(huán)境的異構(gòu)和復(fù)雜化,導(dǎo)致日常運(yùn)維工作需要付出的人力、時(shí)間成本越來(lái)越高。 大約兩年前,智能化運(yùn)維開始被大家廣泛關(guān)注,隨著大數(shù)據(jù)分析、APM、智能異常檢測(cè)、機(jī)器學(xué)習(xí)等技術(shù)的興起和逐漸成熟,運(yùn)維需求也逐漸向自動(dòng)化和智能化過(guò)渡。從最初級(jí)運(yùn)維發(fā)展到現(xiàn)在智能化運(yùn)維,大致經(jīng)歷了四個(gè)階段:腳本時(shí)代——工具時(shí)代——自動(dòng)化時(shí)代——智能化時(shí)代。

目前業(yè)界真正的智能化運(yùn)維的落地實(shí)踐其實(shí)并不多,大多還是停留在自動(dòng)化甚至人工化階段,然而智能化運(yùn)維是大勢(shì)所趨,對(duì)于大公司來(lái)說(shuō),更是尤為重要。以下整理自 2017 上海 CNUTCon 全球運(yùn)維技術(shù)大會(huì)上,阿里巴巴研發(fā)效能團(tuán)隊(duì)負(fù)責(zé)人,阿里研究員畢玄的演講《智能時(shí)代的新運(yùn)維》。

1、阿里的運(yùn)維體系承載著怎樣的責(zé)任?

阿里的運(yùn)維體系介紹

阿里的運(yùn)維團(tuán)隊(duì),主要覆蓋五個(gè)層面。

?一.資源的規(guī)劃與支付是運(yùn)維的基石

整個(gè)運(yùn)維團(tuán)隊(duì)需要負(fù)責(zé)資源的規(guī)劃、資源的交付。

Quota 管理: 比如我們會(huì)跟業(yè)務(wù)團(tuán)隊(duì)做一些預(yù)算的管理,對(duì)于每個(gè)業(yè)務(wù)團(tuán)隊(duì)首先需要有預(yù)算。只要你有預(yù)算,運(yùn)維團(tuán)隊(duì)一定會(huì)把資源交給你,沒(méi)有預(yù)算一切免談。

規(guī)劃: 比如阿里每年的雙十一交易,業(yè)務(wù)團(tuán)隊(duì)要給出下一年的交易額將做到多少,至于背后需要增加多少的機(jī)器量,業(yè)務(wù)團(tuán)隊(duì)根本不關(guān)心。所以需要運(yùn)維團(tuán)隊(duì)來(lái)做從業(yè)務(wù)需求到資源的轉(zhuǎn)化和規(guī)劃,這對(duì)于公司來(lái)講非常重要,因?yàn)橐馕吨罱K我在基礎(chǔ)設(shè)施上要投多少錢,還有節(jié)奏的控制。

采購(gòu): 當(dāng)規(guī)模大了以后,怎么樣合理規(guī)劃資源的數(shù)量和交付節(jié)奏是非常重要的,比如 5 月份采購(gòu)這批機(jī)器和 6 月份采購(gòu)這批機(jī)器,是完全不同的概念。還需要資源的采購(gòu),比如 SSD 采購(gòu)緊張,供應(yīng)量不夠。通常大公司會(huì)有更多的渠道獲得更好的供應(yīng)量,小公司就會(huì)很困難。怎么做好供應(yīng)鏈控制是非常重要的。

資源調(diào)度: 對(duì)于資源團(tuán)隊(duì)來(lái)講,調(diào)度也很重要,我們交出去的機(jī)器是怎么樣的交法,怎么保證可用性、穩(wěn)定性, Bootstrap 等,每個(gè)業(yè)務(wù)都有自己的規(guī)劃,按照業(yè)務(wù)需求怎么把整個(gè)業(yè)務(wù)環(huán)境全部交給業(yè)務(wù)方。阿里目前就遇到了很大的挑戰(zhàn),比如在國(guó)際化的擴(kuò)張上,我們可能這個(gè)月需要在這里建個(gè)點(diǎn),下個(gè)月需要在另一個(gè)地方建個(gè)點(diǎn),怎么快速的完成整個(gè)資源,不僅僅是機(jī)器資源的交付,還有軟件資源的交付,是非常重要的。我們現(xiàn)在在擴(kuò)展東南亞的業(yè)務(wù),怎么樣在東南亞快速的完成整個(gè)軟件資源的交付,對(duì)于我們的競(jìng)爭(zhēng)是非常重要的。

二.變更 是運(yùn)維不可避開的坑

對(duì)于運(yùn)維團(tuán)隊(duì)來(lái)講,變更也是經(jīng)常要做的部分,變更信息的收攏,做應(yīng)用層面的變更,基礎(chǔ)網(wǎng)絡(luò)的 IDC 等等。

三.監(jiān)控 預(yù)測(cè)潛在的故障

監(jiān)控對(duì)于阿里來(lái)講主要分為基礎(chǔ)、業(yè)務(wù)、鏈路,在監(jiān)控的基礎(chǔ)上要去做一些報(bào)警等。

四.穩(wěn)定性 是不少企業(yè)追求的目標(biāo)

穩(wěn)定性這個(gè)概念我們以前認(rèn)為針對(duì)的是大公司,因?yàn)樗赡軙?huì)影響到大眾的生活,會(huì)比較敏感。但是現(xiàn)在新型的互聯(lián)網(wǎng)公司,如外賣,ofo、摩拜等,它的穩(wěn)定性要求比以前很多創(chuàng)業(yè)型公司更高,因?yàn)樗性谀莻€(gè)點(diǎn)必須能用,如果不能用,對(duì)用戶會(huì)有直接的影響。所以穩(wěn)定性可能在整個(gè)運(yùn)維行業(yè)會(huì)得到越來(lái)越高的重視,但是對(duì)于很多中小型公司,穩(wěn)定性的投入相當(dāng)大的。

五.一鍵建站 讓規(guī)模化有力保障

像阿里在穩(wěn)定性上主要會(huì)去做多活體系的建設(shè),然后故障的修復(fù)、故障定位,然后還有一套全鏈路的壓測(cè)。規(guī)?;呛芏噙\(yùn)維團(tuán)隊(duì)很痛苦的事情,可能今年機(jī)器在這個(gè)機(jī)房,明年你的基礎(chǔ)設(shè)施團(tuán)隊(duì)可能告訴你,這個(gè)機(jī)房不夠用了,我們要換個(gè)機(jī)房。反正在阿里巴巴,很多的運(yùn)維人員都說(shuō)了,我們每年的工作中有一項(xiàng)不用寫的工作就是搬遷。雖然基礎(chǔ)設(shè)施團(tuán)隊(duì)會(huì)承諾說(shuō)三年內(nèi)不會(huì)再搬,可是到了明年他會(huì)跟你說(shuō),由于某些原因我們還是再搬一下,搬完之后三年不會(huì)讓你再搬。但是從我們過(guò)去發(fā)展的三年,每年都在搬。未來(lái)我們確實(shí)相信阿里巴巴,可能在未來(lái)搬遷會(huì)相對(duì)更少一點(diǎn),我們認(rèn)為不能讓搬遷成為阿里巴巴運(yùn)維團(tuán)隊(duì)的核心競(jìng)爭(zhēng)力。

我們?cè)谝?guī)?;瘜用孀隽撕芏嗍虑?,比如說(shuō)我們做了一鍵建站,對(duì)于阿里來(lái)講,我們對(duì)機(jī)器資源的交付時(shí)間,要求會(huì)越來(lái)越高。比如說(shuō)雙十一,是提前一個(gè)月交付資源還是提前兩個(gè)月還是提前三個(gè)月,對(duì)我們來(lái)講付出的錢是完全不一樣,而且可能相差非常大。

所以,技術(shù)層面能不能更好的把這個(gè)時(shí)間縮短,是非常重要的。所以一鍵建站的重要目的就是這個(gè),每年雙十一我們都會(huì)拓展出非常多個(gè)站點(diǎn),通過(guò)一鍵建站快速完成整個(gè)過(guò)程。搬遷就是我說(shuō)的,反正我們每年都要搬,那我們應(yīng)該把搬遷這套系統(tǒng)做得更好。還有騰挪,阿里很多時(shí)候因?yàn)樾枰鲆恍I(yè)務(wù)資源的復(fù)用,較好是有一個(gè)機(jī)柜,這個(gè)時(shí)候怎么更好完成挪的過(guò)程也是很麻煩。

我們還需要做一些單元的調(diào)整,因?yàn)閷?duì)阿里的交易系統(tǒng)來(lái)講是有單元的概念的,我們?cè)趺锤玫目刂埔粋€(gè)單元內(nèi)機(jī)器的比率是非常重要的。一個(gè)單元的機(jī)器數(shù)可能是比較固定的,那如果比率搭配不好,就意味著瓶頸點(diǎn)會(huì)非常明顯。

以上,正是阿里巴巴的運(yùn)維團(tuán)隊(duì)所覆蓋的五個(gè)領(lǐng)域。整個(gè)運(yùn)維體系的演進(jìn)過(guò)程,差不多都是從最早的腳本到工具到自動(dòng)化,到未來(lái)的智能化。

2、從工具化到自動(dòng)化過(guò)關(guān)斬將

從工具化到自動(dòng)化這個(gè)層面,過(guò)程并沒(méi)有那么的容易,以及對(duì)整個(gè)行業(yè)來(lái)講,目前更多的工作仍然是在探尋自動(dòng)化,怎么樣讓自動(dòng)化真正的被實(shí)現(xiàn)得更好。

這個(gè)行業(yè)的發(fā)展跟其他傳統(tǒng)的軟件,標(biāo)準(zhǔn)的軟件研發(fā)行業(yè),我覺(jué)得很不一樣。比如說(shuō)阿里從工具化到自動(dòng)化這個(gè)過(guò)程中,我們認(rèn)為工具化,其實(shí)挑戰(zhàn)相對(duì)小,即使傳統(tǒng)的運(yùn)維人員也很容易寫一些工具,比如用 Python 去寫更多的工具體系。但是如果你的工具最重要變成能夠到自動(dòng)化這個(gè)階段,就意味著對(duì)工具的要求會(huì)越來(lái)越高,比如說(shuō)工具的質(zhì)量,如果你寫出來(lái)的工具經(jīng)常有問(wèn)題,規(guī)模一大就扛不住,這個(gè)時(shí)候?qū)τ诖蠹襾?lái)講慢慢會(huì)越來(lái)越失去信任感。最后會(huì)很難完成這個(gè)過(guò)程。

運(yùn)維團(tuán)隊(duì)轉(zhuǎn)型研發(fā)團(tuán)隊(duì) 組織能力是較大的壁壘

阿里過(guò)去走這條路的過(guò)程中,我們覺(jué)得較大的挑戰(zhàn)是組織的能力問(wèn)題。運(yùn)維團(tuán)隊(duì)怎么樣更好的完成朝研發(fā)團(tuán)隊(duì)的轉(zhuǎn)型,這個(gè)過(guò)程對(duì)于很多運(yùn)維團(tuán)隊(duì)來(lái)講都是巨大的挑戰(zhàn)。對(duì)于一個(gè)組織來(lái)講怎么完成這個(gè)過(guò)程也是非常重要的。

我想很多團(tuán)隊(duì)都有這個(gè)感受,工具研發(fā)的團(tuán)隊(duì)跟做運(yùn)維操作的團(tuán)隊(duì)之間,很容易產(chǎn)生一些沖突等等。所以阿里巴巴在走這個(gè)過(guò)程的時(shí)候,思考的核心就是怎么讓一個(gè)運(yùn)維團(tuán)隊(duì)真正從組織能力上,演變成我們所需要的更好的團(tuán)隊(duì)。

阿里在走這條路的時(shí)候,走了四個(gè)過(guò)程。這個(gè)過(guò)程阿里在不斷的摸索,最終到現(xiàn)在為止我們認(rèn)為阿里的方式相對(duì)來(lái)講還是不錯(cuò)的。我們最早跟大部分公司一樣,有一個(gè)專職的工具研發(fā)團(tuán)隊(duì)和一個(gè)專職的運(yùn)維團(tuán)隊(duì)。工具研發(fā)團(tuán)隊(duì)做工具,做出來(lái)給運(yùn)維團(tuán)隊(duì)用。這個(gè)過(guò)程中容易出現(xiàn)的最明顯的問(wèn)題就是工具做完了,運(yùn)維團(tuán)隊(duì)說(shuō)這個(gè)工具太難用了,不符合需求。要么就是運(yùn)維團(tuán)隊(duì)執(zhí)行的過(guò)程中,經(jīng)常出問(wèn)題,出問(wèn)題還要找工具研發(fā)團(tuán)隊(duì)來(lái)幫忙查問(wèn)題在哪里。本來(lái)運(yùn)維幾行腳本全部能搞定的問(wèn)題,結(jié)果還要依賴工具團(tuán)隊(duì)。慢慢這個(gè)局面越來(lái)越難突破,很難改變。

所以阿里后來(lái)做了一個(gè)嘗試,既然兩個(gè)團(tuán)隊(duì)很難做很好的結(jié)合,那有一種方式是工具研發(fā)團(tuán)隊(duì)做完工具以后,比如說(shuō)做了一個(gè)發(fā)布,做完這個(gè)功能以后,這個(gè)運(yùn)維工作就徹底交給工具研發(fā)團(tuán)隊(duì),不讓運(yùn)維團(tuán)隊(duì)做了,運(yùn)維團(tuán)隊(duì)就可以做一些別的事情。這個(gè)模式看起來(lái)就是逐步接管的模式,讓工具研發(fā)團(tuán)隊(duì)逐步解耦。

這個(gè)做了一段時(shí)間,碰到的較大問(wèn)題還是組織能力問(wèn)題。對(duì)于運(yùn)維工具來(lái)講,質(zhì)量怎么做到很高,運(yùn)維好像很容易做的樣子,但是實(shí)際上運(yùn)維工具相當(dāng)難做,它的復(fù)雜度比在線業(yè)務(wù)更大,就是它不是邏輯上的復(fù)雜,更多的是環(huán)境層面的復(fù)雜。因?yàn)楸热鐣?huì)涉及網(wǎng)絡(luò)涉及服務(wù)器涉及機(jī)房等等,這跟業(yè)務(wù)完全不一樣。所以做了一段時(shí)間之后,我們覺(jué)得這還是一個(gè)問(wèn)題。

將工具的研發(fā)和運(yùn)維融為一體 突破組織能力問(wèn)題

后面我們做完這輪之后又開始做另外一個(gè)方向的嘗試,讓工具的研發(fā)團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)做一個(gè)融合。所謂的融合就是把很多工具研發(fā)的人分派給運(yùn)維團(tuán)隊(duì),到運(yùn)維團(tuán)隊(duì)去做。我們期望通過(guò)工具研發(fā)的人帶動(dòng)整個(gè)運(yùn)維團(tuán)隊(duì)轉(zhuǎn)變成研發(fā)型團(tuán)隊(duì)。這是我們的思路。

阿里巴巴在走前面這三步的時(shí)候,大概花了近一年半左右,意味著這其中我們大概做了三輪組織結(jié)構(gòu)調(diào)整。因?yàn)槲覀冋J(rèn)為這些都是要有組織層面的保障才能被實(shí)現(xiàn)的。

DevOps 是如何真正落地的

去年 6 月,我們做了一個(gè)較大的組織結(jié)構(gòu)調(diào)整,把日常的運(yùn)維工作交給研發(fā)做,研發(fā)自己會(huì)把日常的運(yùn)維工作都做掉。但并不是說(shuō)所有運(yùn)維工作,現(xiàn)在仍然有一個(gè)做運(yùn)維的團(tuán)隊(duì),這個(gè)運(yùn)維團(tuán)隊(duì)相對(duì)來(lái)講更不一樣,跟以前有非常大的不同。

我們認(rèn)為這是 DevOps 真正的被徹底的執(zhí)行。因?yàn)檫@個(gè)好處是,日常的運(yùn)維工作交給了研發(fā),運(yùn)維團(tuán)隊(duì)轉(zhuǎn)變成研發(fā)團(tuán)隊(duì)這個(gè)過(guò)程非常困難,其實(shí)不完全是能力上的差距,更大的原因是,運(yùn)維團(tuán)隊(duì)要承擔(dān)非常多的日常雜活,尤其像集團(tuán)性的公司,不管是阿里、騰訊、百度都一樣,集團(tuán)性的公司多數(shù)支撐的 BU 都是無(wú)數(shù)個(gè)。你一個(gè)人支撐二十個(gè) BU 一個(gè) BU 里面一天有一個(gè)人找你,你一天就不用干別的活了,你一天就在跟他們不斷的聊天,做操作,嘴里又叫著這個(gè)團(tuán)隊(duì)要升級(jí),要做組織升級(jí),要轉(zhuǎn)變成研發(fā)團(tuán)隊(duì),實(shí)際上就是逼別人走向了一條死路。

所以我們認(rèn)為,谷歌的做法,谷歌在 SRE 那本書提到的是,會(huì)強(qiáng)制留 50% 的時(shí)間給研發(fā)團(tuán)隊(duì)做研發(fā)工作。這個(gè)說(shuō)實(shí)話,在大多數(shù)公司很難執(zhí)行這個(gè)政策,除非運(yùn)維團(tuán)隊(duì)跟研發(fā)團(tuán)隊(duì)有非常強(qiáng)的話語(yǔ)權(quán)。但這個(gè)很難。所以阿里的做法我認(rèn)為更為徹底,阿里告訴研發(fā)團(tuán)隊(duì),以后日常運(yùn)維的工作不要找運(yùn)維團(tuán)隊(duì),自己干。這可能粗暴了一點(diǎn),在運(yùn)維體系還沒(méi)有準(zhǔn)備得很好的情況下做了這個(gè)事情,所以后面相對(duì)來(lái)講也導(dǎo)致了問(wèn)題,比如說(shuō)運(yùn)維工具四處建設(shè)、重復(fù)建設(shè)等等現(xiàn)象。

但是從組織層面上來(lái)講,我們很欣慰的看到,在做完這輪組織調(diào)整過(guò)后的一年后,運(yùn)維團(tuán)隊(duì)的大多數(shù)人更多的時(shí)間是投入在研發(fā)工作上,而不是投入在日常的雜事上。我們看到了一個(gè)團(tuán)隊(duì)的能力,在經(jīng)過(guò)這一輪的調(diào)整得到了非常好的升級(jí)。而這對(duì)于組織來(lái)講是較大的利好。所以我們認(rèn)為,這種模式是阿里現(xiàn)在更為推崇也更為看好的一個(gè)方向,這樣整個(gè)運(yùn)維團(tuán)隊(duì)將專注在我剛才講的五個(gè)部分的系統(tǒng)層面的研發(fā)以及建設(shè)上,而不是雜活上。這是阿里從工具化到自動(dòng)化,最主要是這樣的一個(gè)過(guò)程。

成功率是衡量自動(dòng)化運(yùn)維的關(guān)鍵指標(biāo)

對(duì)于自動(dòng)化來(lái)講最重要的問(wèn)題是成功率,比如我們看所有的運(yùn)維操作中,我們最關(guān)心的指標(biāo)是成功率。比如一個(gè)運(yùn)維系統(tǒng)里面的功能,在一個(gè)星期內(nèi),比如說(shuō)會(huì)用幾十萬(wàn)次,我們只關(guān)注成功率能不能做到 4 個(gè) 9 以上,否則算一下工單數(shù)就懂了,這個(gè)運(yùn)維團(tuán)隊(duì)得有多少人支持這件事情,這些人又沒(méi)有時(shí)間去干研發(fā)的活,又要投入大量的精力做支持性的工作。所以我們?cè)诔晒β噬弦龅椒浅8叩谋U希\(yùn)維系統(tǒng)我們以前看過(guò)是面臨較大的挑戰(zhàn),我以前的背景全部是做在線業(yè)務(wù)型的系統(tǒng),比如淘寶的交易等等。

后來(lái)我們發(fā)現(xiàn)運(yùn)維系統(tǒng)有個(gè)較大的不同在于,運(yùn)維系統(tǒng)對(duì)于成功率的追求比在線業(yè)務(wù)型系統(tǒng)更高一些。在線業(yè)務(wù)型系統(tǒng),比如說(shuō)我在訪問(wèn)后面一個(gè)地方有問(wèn)題的時(shí)候,我們會(huì)選擇盡快把這個(gè)過(guò)程失敗掉,而不是把時(shí)間不斷的拖長(zhǎng)以及不斷的試錯(cuò)。在線系統(tǒng)會(huì)更加快的把錯(cuò)誤往外拋。但是對(duì)于運(yùn)維系統(tǒng)來(lái)講如果也這樣做,就意味著這個(gè)成功率非常難保障。所以運(yùn)維系統(tǒng)要有更好的思考,怎么保障一次運(yùn)維操作,這背后可能有幾十個(gè)系統(tǒng),而且多數(shù)是無(wú)數(shù)的團(tuán)隊(duì)寫的,阿里以前碰到的情況就是無(wú)數(shù)個(gè)系統(tǒng),質(zhì)量層次不起,什么都有。怎么保證在這么復(fù)雜的環(huán)境下,保證對(duì)外的,對(duì)用戶層面這個(gè)成功率可以做到很高的。這是一個(gè)很大的問(wèn)題。

規(guī)模帶來(lái)的挑戰(zhàn)也是不容小覷

隨著規(guī)模的不斷增長(zhǎng),所有開源類型的運(yùn)維類的系統(tǒng),在規(guī)?;?,當(dāng)你的機(jī)器規(guī)模等等其他規(guī)模上升到一個(gè)程度以后,通常來(lái)講都會(huì)面臨非常巨大的挑戰(zhàn)。阿里巴巴所有的這種類型的系統(tǒng),我們論證都是自己做是比較靠譜。較大的原因是規(guī)模,規(guī)模上去以后會(huì)遇到很多問(wèn)題。像代碼托管、代碼編譯什么的,以前認(rèn)為不會(huì)有太大的問(wèn)題,事實(shí)證明規(guī)模上來(lái)以后這些里面全都是問(wèn)題。我們也要投入非常大的精力去做規(guī)模方面的解決。

所以我覺(jué)得,阿里從以前的工具化走向更加自動(dòng)化的過(guò)程中,我們探討的核心問(wèn)題就是能不能有一個(gè)非常好的組織去完成這個(gè)過(guò)程。能讓運(yùn)維的團(tuán)隊(duì)更加轉(zhuǎn)型向 DevOps 這樣的方向。所以我們一直說(shuō),我們一直很糾結(jié)運(yùn)維團(tuán)隊(duì)到底應(yīng)該叫什么名字,我們一致認(rèn)為,運(yùn)維研發(fā)團(tuán)隊(duì),我們覺(jué)得不大對(duì),你的主要的活其實(shí)是干研發(fā)而不是運(yùn)維。但是叫研發(fā)運(yùn)維又有點(diǎn)奇怪。后來(lái)阿里巴巴基本上是叫研發(fā)團(tuán)隊(duì)。因?yàn)槲覀冋J(rèn)為運(yùn)維的研發(fā)團(tuán)隊(duì)和在線業(yè)務(wù)的研發(fā)團(tuán)隊(duì)沒(méi)有本質(zhì)區(qū)別,都是做研發(fā)的,只是一個(gè)在解決運(yùn)維領(lǐng)域的業(yè)務(wù)問(wèn)題。剛才講的五個(gè)層次,運(yùn)維領(lǐng)域的業(yè)務(wù)問(wèn)題,也是業(yè)務(wù),沒(méi)有什么區(qū)別。在線業(yè)務(wù),比如解決交易的問(wèn)題,解決其他問(wèn)題,這是完全一樣的。兩個(gè)研發(fā)團(tuán)隊(duì)沒(méi)有本質(zhì)區(qū)別。

所以這個(gè)過(guò)程,阿里經(jīng)過(guò)過(guò)去這一年的組織調(diào)整以后,我們看到整個(gè)自動(dòng)化層面,阿里有了很好的進(jìn)展,但是離我們的期望還要更加努力繼續(xù)往前演進(jìn)。

3、阿里巴巴在智能化領(lǐng)域的探尋之路

現(xiàn)在智能化這個(gè)話題特別火熱,就像我們說(shuō),AI 這個(gè)名字興起的時(shí)候,我們忽然發(fā)現(xiàn),阿里巴巴所有的業(yè)務(wù)都講 AI+ 自己的業(yè)務(wù),被所有人狂批一通。我們要想清楚,具不具備 AI 化的前提,可能前提都不具備就不斷探討這個(gè)名字。因?yàn)闃I(yè)界在不斷的炒熱非常多的名詞,讓大家去跟隨。

自動(dòng)化是智能化的前提

對(duì)于我們來(lái)講,我們認(rèn)為,比如說(shuō)就像我對(duì)這個(gè)團(tuán)隊(duì),我自己的團(tuán)隊(duì)講的一樣,我認(rèn)為智能化最重要的前提是,一是自動(dòng)化。如果你的系統(tǒng)還沒(méi)有完成自動(dòng)化的過(guò)程,我認(rèn)為就不要去做智能化,你還在前面的階段。智能化非常多的要求都是自動(dòng)化,如果不夠自動(dòng)化,意味著后邊看起來(lái)做了一個(gè)很好的智能化的算法等等,告訴別人我能給你很大的幫助,結(jié)果發(fā)現(xiàn)前面自動(dòng)化過(guò)程還沒(méi)有做完全。

一個(gè)最典型的 case,阿里巴巴以前一直在講,我們認(rèn)為資源的搭配上,其實(shí)可以做得更好。比如說(shuō)你半夜流量比較小,白天流量比較大,你能不能更好的做一些彈性,把資源釋放出來(lái)去干點(diǎn)別的,然后白天再把它補(bǔ)起來(lái)。這從算法層面上并沒(méi)有那么復(fù)雜,從算法層面做到一個(gè)簡(jiǎn)單的提升是很容易做的。所以,當(dāng)時(shí)我們就有很多團(tuán)隊(duì)做了一個(gè)東西,可以做到這一點(diǎn)。結(jié)果等到落地的時(shí)候發(fā)現(xiàn),業(yè)務(wù)不能自動(dòng)伸縮。如果你想,比如說(shuō)有些機(jī)器上面負(fù)載特別高,有些機(jī)器特別低,我們希望負(fù)載能拉得更均衡,在線業(yè)務(wù)更加穩(wěn)定化,做一個(gè)算法,比如說(shuō)背包,更好的去做組合,結(jié)果就是這個(gè)東西做完了,給出了建議說(shuō)較好這個(gè)應(yīng)用調(diào)到那臺(tái)機(jī)器,那臺(tái)應(yīng)用調(diào)到這臺(tái)機(jī)器。給完之后業(yè)務(wù)團(tuán)隊(duì)看了一眼,我們不干,因?yàn)楦蛇@些工作全部要手工干,你還每天給我建議,更不要干了,每天就來(lái)調(diào)機(jī)器了。

所以首先你要想明白你的前提,自動(dòng)化,具不具備自動(dòng)化的能力,不具備的話沒(méi)有必要在這方面做過(guò)多的投入。

數(shù)據(jù)結(jié)構(gòu)化是智能化的源動(dòng)力

目前 AI 領(lǐng)域基本是靠暴力,暴力破解,未來(lái)可能有別的方向,但是目前的 AI 基本上是靠大量數(shù)據(jù)的積累去尋找一個(gè)東西出來(lái),所以它一定需要有大量的數(shù)據(jù)積累,數(shù)據(jù)包括非常多的東西,對(duì)于運(yùn)維來(lái)講,可能基礎(chǔ)層面的數(shù)據(jù),機(jī)器的數(shù)據(jù),運(yùn)維變更的數(shù)據(jù),上面還有一些場(chǎng)景化的數(shù)據(jù),比如你解決故障,有沒(méi)有更好的結(jié)構(gòu)化的收集數(shù)據(jù),這是非常重要的。數(shù)據(jù)這個(gè)層面比較難做的在于, ? ? ?在最開始階段,多數(shù)公司的運(yùn)維數(shù)據(jù)都是不夠結(jié)構(gòu)化的,結(jié)構(gòu)化不會(huì)做得那么好,當(dāng)然會(huì)有結(jié)構(gòu)化,但是結(jié)構(gòu)化的因素不會(huì)足夠好。

就像阿里巴巴在講,我們?cè)陔娚填I(lǐng)域 AI 化,我們較大的優(yōu)勢(shì)就是不斷對(duì)外部講,我們擁有的是結(jié)構(gòu)化的商品數(shù)據(jù),其他公司最多從我們這里扒結(jié)構(gòu)化的商品數(shù)據(jù)。你扒過(guò)去之后還要自己分析,并且做商品結(jié)構(gòu)的調(diào)整,這非常困難。但是阿里巴巴自己天然,所有人都會(huì)幫你把結(jié)構(gòu)做得非常好。所以對(duì)運(yùn)維來(lái)講也是一樣,如果你想在智能化上有更多的突破,數(shù)據(jù)怎么更好的做結(jié)構(gòu)化,是一個(gè)非常大的挑戰(zhàn)。你很難想清楚。這兩個(gè)地方是我覺(jué)得首先要想清楚的。

智能化最適合的運(yùn)維場(chǎng)景

從目前來(lái)看,對(duì)于運(yùn)維場(chǎng)景來(lái)講,智能化特別適合解決的問(wèn)題就兩種,對(duì)于所有行業(yè)好像都差不多,第一是規(guī)模,第二是復(fù)雜。規(guī)模就意味著,我有很多的機(jī)器,在很多機(jī)器中我要尋找出一個(gè)機(jī)器的問(wèn)題,這對(duì)于,因?yàn)橐?guī)模太大了,這時(shí)候?qū)τ谟脗鹘y(tǒng)的方式,將非常難解決這個(gè)問(wèn)題?;蛘吣阋度敕浅4蟮娜肆Φ鹊?,有點(diǎn)得不償失。規(guī)模上來(lái)以后怎么更好的解決規(guī)模的問(wèn)題,智能化會(huì)帶來(lái)一些幫助。第二是復(fù)雜,比如說(shuō)你的應(yīng)用從原來(lái)的一個(gè)應(yīng)用變成了幾千個(gè)、上萬(wàn)個(gè)、幾十萬(wàn)個(gè),這時(shí)候你要尋找出其中哪個(gè)應(yīng)用的問(wèn)題,將是非常復(fù)雜的問(wèn)題。所以復(fù)雜度的問(wèn)題是人類用人腦非常難推演的,但是機(jī)器相對(duì)來(lái)講是更容易做的。這是阿里有些團(tuán)隊(duì)希望嘗試智能化的方向,通常我們會(huì)看是不是在前面的這些前提條件上都具備。如果都具備了,那可以去探索一下。所以我講,阿里其實(shí)目前處于整個(gè)智能化運(yùn)維的探索階段,而不是全面展開階段。

阿里巴巴智能化運(yùn)維五步走

簡(jiǎn)單講一下我們?cè)诟鱾€(gè)領(lǐng)域目前在智能化這個(gè)領(lǐng)域,在運(yùn)維這五個(gè)領(lǐng)域,對(duì)于我們講,智能化我們看到的一些可能性,包括我們正在做的事情。

一.資源的重點(diǎn)是成本

1. 基礎(chǔ)設(shè)施選型

對(duì)于資源這一塊,整個(gè)公司層面更為關(guān)注的問(wèn)題,就是成本。你交付的資源具不具備較低的成本,這個(gè)智能化確實(shí)可以給非常大的幫助。比如第一點(diǎn),怎么更好的規(guī)劃這家公司機(jī)型、網(wǎng)絡(luò)和整個(gè)數(shù)據(jù)中心,這為什么要用智能化的手段在于,一個(gè)數(shù)據(jù)中心的選址來(lái)自非常多的因素,除了政府層面的政策因素之外,還有很多其他因素需要考慮,比如說(shuō)氣候等等各種各樣的因素,都需要在這個(gè)階段去考慮。你需要通過(guò)大量數(shù)據(jù)的積累來(lái)分析,比如在中國(guó),在海外,到底有那些地方是對(duì)你的業(yè)務(wù)發(fā)展策略來(lái)講最適合的,是在哪里,這要確定一個(gè)范圍,在一個(gè)范圍基礎(chǔ)上是進(jìn)一步的人的建立。

對(duì)于網(wǎng)絡(luò)、機(jī)型來(lái)講,目前我們認(rèn)為最可以做的在于,可能因?yàn)榘⒗锏哪J礁行┕静灰粯?,阿里更多的機(jī)器都來(lái)自同一個(gè)部門,基本上是同一個(gè)部門在教阿里巴巴所有的機(jī)器。這就有巨大的好處了,因?yàn)槎荚谝粋€(gè)團(tuán)隊(duì)。比如阿里巴巴在去年開始建設(shè)統(tǒng)一的調(diào)度系統(tǒng),更大的好處就來(lái)了,因?yàn)榇蠹宜械馁Y源都來(lái)自同一個(gè)地方,這個(gè)地方就收集了整個(gè)阿里巴巴的所有的資源需求、數(shù)據(jù),數(shù)據(jù)全部在它手上。

如果你結(jié)合這個(gè)數(shù)據(jù),以及它實(shí)際的運(yùn)行情況,更好的就可以去推導(dǎo),比如說(shuō)對(duì)于阿里巴巴來(lái)講最合適的機(jī)型是什么,這個(gè)阿里大概在去年就開始做嘗試。在去年以前所有的過(guò)程,阿里巴巴,比如說(shuō)明年我的服務(wù)器的機(jī)型,所謂機(jī)型,這里講的機(jī)型的含義主要是比率問(wèn)題,不是選擇下一代什么樣的 CPU,那是硬件發(fā)展決定的。但是比率因素,以前我們更多的是人腦拍,人肉智能。人肉智能在一定階段是更加高階的,過(guò)了那個(gè)階段之后人就比不過(guò)機(jī)器了。團(tuán)隊(duì)說(shuō)我們明年要買的機(jī)型里面的配置大概是這樣的,人算了一下,就這樣吧,就可以拍掉。去年開始我們引入了一套系統(tǒng),這套系統(tǒng)會(huì)分析所有的數(shù)據(jù)以及錢,最重要的是錢,然后分析一下整個(gè)過(guò)程,推演對(duì)我們來(lái)說(shuō)最合算的是什么。所以適合的機(jī)型到底是什么。

如果有一套非常好的推演的系統(tǒng),來(lái)推演你的機(jī)型、網(wǎng)絡(luò)、IDC 未來(lái)應(yīng)該怎么規(guī)劃,這對(duì)于成本領(lǐng)域?qū)?huì)產(chǎn)生巨大的幫助。比如說(shuō)網(wǎng)絡(luò),現(xiàn)在的發(fā)展,萬(wàn)兆,25G、45G、100G,你認(rèn)為對(duì)于你的公司來(lái)講最合適的是什么?多數(shù)公司八成就是人腦一拍就決定了,但是事實(shí)上可能不是這樣。

2. DC 大腦,讓控制更加智能化

DC 大腦,這個(gè)現(xiàn)在比較火,這個(gè)領(lǐng)域現(xiàn)在非常火爆,火爆的主要原因有可能是因?yàn)槿ツ旯雀璧囊黄恼拢雀枞ツ臧l(fā)表了一篇文章,里面有一個(gè)消息透露了一下,他們通過(guò)更好的智能化,去控制整個(gè)機(jī)房的智能等等。比如說(shuō)控制空調(diào)的出口,就是那個(gè)風(fēng)向往哪邊吹,控制這個(gè),然后為谷歌節(jié)省了非常多的錢,非??捎^。所以對(duì)于很多數(shù)據(jù)中心團(tuán)隊(duì)來(lái)講,現(xiàn)在都在研究這個(gè)領(lǐng)域。因?yàn)檫@個(gè)領(lǐng)域?qū)嵲谔″X了。

我們后來(lái)類比了一下,我們說(shuō)其實(shí)大多數(shù)人,可能你很難感覺(jué)數(shù)據(jù)中心,但是你最容易感覺(jué)的是另外一個(gè)地方,你的辦公室。比如說(shuō)我們以前說(shuō),阿里巴巴一到夏天的時(shí)候,辦公室實(shí)在是太冷了,比外面冷多了。如果能夠更好的控制溫度,對(duì)于我們來(lái)講就會(huì)有巨大的幫助,對(duì)公司來(lái)講可能會(huì)更加省錢。所以怎么樣做好這個(gè)非常重要。

3. 彈性伸縮較大的前提是實(shí)現(xiàn)自動(dòng)化

彈性伸縮,這是無(wú)數(shù)運(yùn)維團(tuán)隊(duì)都想做的事情,研發(fā)團(tuán)隊(duì)說(shuō),業(yè)務(wù)團(tuán)隊(duì)說(shuō),我要一百臺(tái)機(jī)器,你也不好反駁他,最后上線了一百臺(tái),你發(fā)現(xiàn)他用十臺(tái)就夠了。但是你也很難跟他糾結(jié)這個(gè)問(wèn)題,好像無(wú)數(shù)的運(yùn)維團(tuán)隊(duì)都在嘗試彈性伸縮。但是我說(shuō)了,彈性伸縮較大的前提就是自動(dòng)化,如果沒(méi)有自動(dòng)化也沒(méi)有什么意義。

4. 資源畫像讓資源更好搭配

資源怎么更好的搭配,阿里巴巴在嘗試做資源的畫像。對(duì)于所有的在線業(yè)務(wù)來(lái)講,它的趨勢(shì)比較好預(yù)測(cè),多數(shù)在線業(yè)務(wù),只有少數(shù)的在線業(yè)務(wù)不大好預(yù)測(cè)。多數(shù)在線業(yè)務(wù)是一個(gè)模式,如果預(yù)測(cè)得非常好,讓資源有合理的搭配,對(duì)于這家公司的資源將會(huì)產(chǎn)生巨大的幫助。

二.可以下降 30% 由變更引起的故障

在變更這個(gè)領(lǐng)域我們覺(jué)得首先是效率問(wèn)題。阿里巴巴現(xiàn)在大概有幾萬(wàn)的研發(fā)人員,我們又把運(yùn)維這個(gè)工作交給研發(fā)了,那怎么讓研發(fā)在這個(gè)過(guò)程中,把變更這件事情做得更有效率和更沒(méi)有感覺(jué),是阿里巴巴現(xiàn)在追求的一個(gè)重點(diǎn)。這個(gè)重點(diǎn)我們認(rèn)為,智能化是可以發(fā)揮巨大的幫助的。上面講的第一個(gè)案例是講的文件分發(fā)過(guò)程當(dāng)中的智能的流控。比如一次發(fā)布要一個(gè)小時(shí),那意味著多數(shù)研發(fā)是需要去盯一個(gè)小時(shí)的,他雖然不一定要一直看著,但是到發(fā)完之后是要去看一下,這挺耗精力的。另外一個(gè)方向是現(xiàn)在業(yè)界很火的無(wú)人值守,怎么做到在發(fā)布過(guò)程中,對(duì)于研發(fā)來(lái)講較好是無(wú)感,我制定了在某天發(fā),只要測(cè)試通過(guò)了我就可以自動(dòng)完成這個(gè)過(guò)程,有問(wèn)題稍微控制一下就好了,沒(méi)有問(wèn)題就當(dāng)這件事情沒(méi)發(fā)生。這對(duì)于有眾多研發(fā)團(tuán)隊(duì),或者當(dāng)然,如果你有運(yùn)維團(tuán)隊(duì)在做這件事情,對(duì)運(yùn)維團(tuán)隊(duì)來(lái)講就更有幫助了,意味著運(yùn)維很多人可能就去掉了一大塊活。

所以,變更這個(gè)領(lǐng)域,我們最希望做的是朝這個(gè)方向去發(fā)展。目前來(lái)看阿里巴巴的嘗試,我們可以看到變更引發(fā)的故障比率是較高的,目前已經(jīng)鋪的這個(gè)領(lǐng)域中,可以下降 30% 因?yàn)樽兏鸬墓收?,攔截主要是用來(lái)攔截問(wèn)題。

三.監(jiān)控 AI 化

智能報(bào)警

這個(gè)領(lǐng)域現(xiàn)在是 AI 進(jìn)入運(yùn)維行業(yè)中最火的領(lǐng)域,所有公司都在做。第一個(gè)是阿里在做的,阿里也不例外,我們也同樣在做。第一個(gè)是智能,大家比如說(shuō)做運(yùn)維的都知道,你寫完了一個(gè)業(yè)務(wù),要配監(jiān)控報(bào)警的閾值的,比如說(shuō) CPU 到多少應(yīng)該報(bào)警,然后響應(yīng)時(shí)間到多少應(yīng)該報(bào)警。阿里在嘗試的一個(gè)方向是讓你不要去配,阿里根據(jù)分析來(lái)決定什么情況下需要報(bào)警,這對(duì)于研發(fā)來(lái)講有巨大的幫助。

異常檢測(cè)直接影響到效率

第二點(diǎn)是異常檢測(cè),這是很多公司都在做的。異常檢測(cè)之所以要做,較大的原因就是因?yàn)樾剩绻蛔觯鋵?shí)也 ok,但是要投入非常大的人力。比如說(shuō)交易跌了,那到底是,比如對(duì)于我們來(lái)講,交易跌了,只要跌了就需要分析到底什么因素。而這個(gè)因素很有可能,最后你發(fā)現(xiàn)根本跟我們沒(méi)關(guān)系,可能是外部原因,國(guó)家節(jié)日等等,各種各樣的因素造成的。尤其是小規(guī)模的業(yè)務(wù),比如我們的海外業(yè)務(wù),波動(dòng)非常大,如果一波動(dòng)就認(rèn)為是問(wèn)題,這對(duì)于整個(gè)公司的效率來(lái)講是巨大的影響。

所以我們認(rèn)為,如果異常檢測(cè)做得非常好,對(duì)我們的效率會(huì)有非常大的幫助。這張圖是通常來(lái)講,做異常檢測(cè),運(yùn)維的數(shù)據(jù)都是時(shí)序化,根據(jù)時(shí)序有各種各樣的算法,上面列了業(yè)界常用的算法。最左上角的算法是阿里巴巴自己研究的算法,從我們目前的測(cè)試情況來(lái)看,我們可以看到阿里巴巴自己研究的算法的準(zhǔn)確率等等,得比業(yè)界高非常多。細(xì)節(jié)我不講了,最重要的原因是這個(gè)東西馬上會(huì)在某個(gè)會(huì)議上發(fā)表一篇論文,大家以后會(huì)看到。

四.穩(wěn)定性是以效率為原則

故障修復(fù)要精準(zhǔn)且快速

穩(wěn)定性對(duì)我們來(lái)講最重要的是效率問(wèn)題。第一個(gè)是故障的修復(fù),故障出現(xiàn)在越大的公司越大的規(guī)模越復(fù)雜的業(yè)務(wù)場(chǎng)景中,出現(xiàn)是不可避免的,一定會(huì)出現(xiàn),關(guān)鍵是出現(xiàn)之后怎么盡快把故障修復(fù)掉。故障修復(fù)這個(gè)領(lǐng)域,阿里巴巴嘗試了非常多的方案,也嘗試了很多年。很多的案例都是,這個(gè)過(guò)程需要慢慢的積累,原因在于信任感地當(dāng)故障出現(xiàn)的時(shí)候,我們都說(shuō)公司的很多團(tuán)隊(duì)都處于高度緊張的狀態(tài),這個(gè)時(shí)候有一套系統(tǒng)拋出了,現(xiàn)在多數(shù)這種系統(tǒng)都是拋出三個(gè)決定,給你三個(gè)建議,然后你來(lái)選。有時(shí)候經(jīng)驗(yàn)豐富的處理故障的人一看,你拋出的三個(gè)建議都不靠譜。當(dāng)十個(gè)故障中,有八次,不用八次,如果有個(gè)四五次都是這樣的,以后所有人都不會(huì)看這套系統(tǒng)了,太不靠譜了,還不如人來(lái)判斷。這個(gè)系統(tǒng)難度非常高,需要整個(gè)公司堅(jiān)定地朝這個(gè)方向走,并且更好的積累很多的數(shù)據(jù)。

故障修復(fù),阿里現(xiàn)在只嘗試了一些非常簡(jiǎn)單的案例,對(duì)于阿里來(lái)講,比如一個(gè)機(jī)房出故障,因?yàn)檎麄€(gè)阿里巴巴交易體系的架構(gòu)是支持多點(diǎn)的,對(duì)于我們來(lái)講如果在某種情況下,我們判斷一個(gè)機(jī)房出故障,我們可以自動(dòng)的做一些流量的切換等等。但阿里現(xiàn)在也認(rèn)為,智能化在穩(wěn)定性,尤其故障修復(fù)這種動(dòng)作上,還是要非常小心,萬(wàn)一沒(méi)事切出了問(wèn)題,這影響更大。

用智能化做好故障定位

我們以前一直都認(rèn)為定位這個(gè)問(wèn)題不是個(gè)大問(wèn)題,如果我能快速修復(fù),定位,你慢慢定好了,定個(gè)兩天我也無(wú)所謂。但是現(xiàn)在阿里特別重視的原因在于,故障定位損耗了我們非常多的人力,耗費(fèi)了我們非常大的團(tuán)隊(duì)力量。所以我們認(rèn)為需要有更智能化的方法,把故障定位出來(lái),以助研發(fā)團(tuán)隊(duì)更專注投入在其他事情上。比如現(xiàn)在故障一出來(lái),研發(fā)查了半天,一看,跟它都沒(méi)有什么關(guān)系。所以就浪費(fèi)了很多,這張圖是我們現(xiàn)在在做的一套系統(tǒng),從一個(gè)異常,那里標(biāo)一二三四五,當(dāng)有一個(gè)異常出來(lái)之后,第一步發(fā)現(xiàn),第二步不斷的分析,一直定位到最后到底是哪個(gè)地方出了問(wèn)題,我們的目標(biāo)是最后盡可能定位到代碼層面的問(wèn)題,或者是網(wǎng)絡(luò)或者是基礎(chǔ)設(shè)施等等。

五.邊壓邊彈 做好規(guī)?;\(yùn)維

目前對(duì)阿里來(lái)講最重要的問(wèn)題還是效率問(wèn)題。比如說(shuō)我們?cè)诿磕隃?zhǔn)備雙十一容量的時(shí)候,很多人都知道阿里有全鏈路壓測(cè),一個(gè)最重要的目的就是調(diào)整容量,怎么把一個(gè)機(jī)房的容量調(diào)整成比率是最合適的,比如說(shuō) A 應(yīng)用可能是瓶頸,但是事實(shí)上如果搭配得好,A 應(yīng)用就不再是瓶頸。所以怎么樣讓一個(gè)固定機(jī)器數(shù)下做一個(gè)較好的搭配,我們以前是壓一輪調(diào)整一下,再壓一輪再調(diào)整一下,這非常耗費(fèi)一堆人通宵的精力。我們認(rèn)為這個(gè)過(guò)程需要提升,現(xiàn)在改成非常簡(jiǎn)單的模式,流量過(guò)來(lái)以后不斷的自動(dòng)調(diào)整容量比例,我們會(huì)有一個(gè)所謂邊壓邊彈,一邊壓測(cè)一邊調(diào)整比例。相信很多運(yùn)維同學(xué)都干過(guò)這個(gè)事情,因?yàn)闃I(yè)務(wù)方給你一個(gè)指標(biāo),你是要算的,而且很難算的很精準(zhǔn)。邊壓邊彈意味著你不需要算得很精準(zhǔn),粗略算一個(gè)數(shù)就可以了,后面靠這套系統(tǒng)自動(dòng)給你調(diào)平衡。

阿里巴巴在這五個(gè)方面,在智能化方面做的探索,阿里認(rèn)為我們還不足以所有的領(lǐng)域都去覆蓋。

4、未來(lái)運(yùn)維領(lǐng)域需要突破的防線

無(wú)人化 讓夢(mèng)想照進(jìn)現(xiàn)實(shí)

我認(rèn)為現(xiàn)在運(yùn)維這個(gè)領(lǐng)域中較大的挑戰(zhàn)仍然是,能不能真正的走向無(wú)人化,整個(gè)過(guò)程中是完全沒(méi)有人的。

從目前來(lái)看,要做到無(wú)人化最重要的是質(zhì)量問(wèn)題,質(zhì)量做得不夠好是沒(méi)有辦法無(wú)人化的。另外如果出問(wèn)題了能不能自動(dòng)修復(fù)等等,所以我們認(rèn)為無(wú)人化對(duì)運(yùn)維領(lǐng)域是較大的挑戰(zhàn),能不能把這個(gè)落地變成現(xiàn)實(shí),奠定了智能化的基礎(chǔ)。如果說(shuō)智能化所有的動(dòng)作要人介入,那基本就不用做了。

智能化 帶來(lái)效率上的質(zhì)變

在智能化這一點(diǎn)上,第一點(diǎn)是有效性的問(wèn)題,如果這個(gè)智能表現(xiàn)得比人的智力還差一些,這個(gè)慢慢就沒(méi)有人相信這個(gè)東西了。所以怎么樣把有效性提升上來(lái),另外最重要的是要看到智能化給運(yùn)維領(lǐng)域帶來(lái)效率上的質(zhì)變。智能化投入非常大,要做大量的收集做大量的分析。所以較好帶來(lái)的是質(zhì)變而不只是量變,如果只是量變可能投入都收不回來(lái)。對(duì)于所有公司而言,更少的人更低的成本是非常重要的。人較好投入在一些更重要的研發(fā)等等事情上。

作者介紹

林昊 (畢玄),阿里巴巴研發(fā)效能事業(yè)部負(fù)責(zé)人。2007 年加入阿里,10 年間打造了阿里目前使用更為廣泛的核心中間件之一的服務(wù)框架;建設(shè)了阿里的 HBase 團(tuán)隊(duì),發(fā)展到今天 HBase 已經(jīng)是阿里最重要的 NoSQL 產(chǎn)品;打造阿里基于 LXC 的虛擬化系統(tǒng),以及集群資源管理系統(tǒng),不斷降低阿里巴巴在機(jī)器資源上投入的成本;設(shè)計(jì)并帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)了阿里巴巴技術(shù)發(fā)展史上具有里程碑意義的異地多活。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/3961.html

相關(guān)文章

  • JavaScript模塊發(fā)展變遷

    摘要:前兩天有朋友拿了這樣一段代碼來(lái)問(wèn)我,我想把一段代碼寫成模塊化的樣子,你幫我看看是不是這樣的。的一個(gè)好處在與依賴前置,所有被使用到的模塊都會(huì)被提前加載好,從而加快運(yùn)行速度。 前兩天有朋友拿了這樣一段代碼來(lái)問(wèn)我,我想把一段代碼寫成模塊化的樣子,你幫我看看是不是這樣的。,代碼大概是這樣的: (function(global) { var myModules = { n...

    姘存按 評(píng)論0 收藏0
  • 進(jìn)階Java架構(gòu)師必看的15本書

    摘要:阿里巴巴的共享服務(wù)理念以及企業(yè)級(jí)互聯(lián)網(wǎng)架構(gòu)建設(shè)的思路,給這些企業(yè)帶來(lái)了不少新的思路,這也是我最終決定寫這本書的最主要原因。盡在雙阿里巴巴技術(shù)演進(jìn)與超越是迄今唯一由阿里巴巴集團(tuán)官方出品全面闡述雙八年以來(lái)在技術(shù)和商業(yè)上演進(jìn)和創(chuàng)新歷程的書籍。 showImg(https://segmentfault.com/img/remote/1460000015386860); 1、大型網(wǎng)站技術(shù)架構(gòu):核...

    Julylovin 評(píng)論0 收藏0
  • 精讀《前端未來(lái)展望》

    摘要:精讀前端可以從多個(gè)角度理解,比如規(guī)范框架語(yǔ)言社區(qū)場(chǎng)景以及整條研發(fā)鏈路。同是前端未來(lái)展望,不同的文章側(cè)重的格局不同,兩個(gè)標(biāo)題相同的文章內(nèi)容可能大相徑庭。作為使用者,現(xiàn)在和未來(lái)的主流可能都是微軟系,畢竟微軟在操作系統(tǒng)方面人才儲(chǔ)備和經(jīng)驗(yàn)積累很多。 1. 引言 前端展望的文章越來(lái)越不好寫了,隨著前端發(fā)展的深入,需要擁有非常寬廣的視野與格局才能看清前端的未來(lái)。 筆者根據(jù)自身經(jīng)驗(yàn),結(jié)合下面幾篇文章...

    MadPecker 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

MobService

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<