摘要:今天我將美團(tuán)點(diǎn)評(píng)這幾年在運(yùn)維方面做的一些工作,以及自己的思考與大家分享一下。所以在美團(tuán)點(diǎn)評(píng)給自己的使命,就是要把美團(tuán)點(diǎn)評(píng)的運(yùn)維做到騰訊百度的水平,把缺失的過(guò)程成長(zhǎng)的過(guò)程由自己做出來(lái)。美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具講一下美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具。
數(shù)人云“當(dāng)西方的SRE遇上東方的互聯(lián)網(wǎng)”Meetup第一彈實(shí)錄來(lái)啦!
本次分享嘉賓是美團(tuán)點(diǎn)評(píng)運(yùn)維中心高級(jí)總監(jiān)鐘紅軍,他向我們?cè)敿?xì)介紹了美團(tuán)點(diǎn)評(píng)近3年來(lái)在大規(guī)模運(yùn)維的理念和實(shí)踐方面的探索,尤其是在運(yùn)維自動(dòng)化和數(shù)據(jù)運(yùn)營(yíng)方面的工作和效果——
鐘紅軍 / 美團(tuán)點(diǎn)評(píng)運(yùn)維中心高級(jí)總監(jiān)
美團(tuán)點(diǎn)評(píng)集團(tuán)運(yùn)維中心高級(jí)總監(jiān),此前曾工作于百度,騰訊,PPTV等互聯(lián)網(wǎng)公司,熟悉系統(tǒng)、網(wǎng)絡(luò)、運(yùn)維、安全、數(shù)據(jù)、開發(fā)等多個(gè)領(lǐng)域。
今天我將美團(tuán)點(diǎn)評(píng)這幾年在運(yùn)維方面做的一些工作,以及自己的思考與大家分享一下。美團(tuán)點(diǎn)評(píng)整個(gè)運(yùn)維團(tuán)隊(duì)100多人,base在北京和上海,美團(tuán)和點(diǎn)評(píng)兩家公司在2015年合并,所以團(tuán)隊(duì)也是兩地都有。運(yùn)維中心有SRE團(tuán)隊(duì)有數(shù)據(jù)庫(kù)的團(tuán)隊(duì),有自動(dòng)化開發(fā)等。
階段1:工具化我是2013年從百度加入點(diǎn)評(píng)的,之前在騰訊,當(dāng)時(shí)想法很明確,因?yàn)轵v訊、百度的運(yùn)維體系相對(duì)比較成熟,包括運(yùn)維工具、自動(dòng)化的工具都是一整套,比較好用,對(duì)我來(lái)說(shuō)最遺憾的是這些工具都不是自己做的,在騰訊我只是一個(gè)用戶,每天用那些運(yùn)維工具卻不知道這些工具如何做出來(lái)的。所以在美團(tuán)點(diǎn)評(píng)給自己的使命,就是要把美團(tuán)點(diǎn)評(píng)的運(yùn)維做到騰訊、百度的水平,把缺失的過(guò)程、成長(zhǎng)的過(guò)程由自己做出來(lái)。美團(tuán)點(diǎn)評(píng)運(yùn)維團(tuán)隊(duì)在2014年-2015年業(yè)務(wù)發(fā)展非常快,公司有幾萬(wàn)人,研發(fā)團(tuán)隊(duì)很大,那時(shí)候的運(yùn)維做得還是處于相對(duì)基礎(chǔ)的階段,遇到了問(wèn)題,不分白天黑夜操作壓力很大,尤其是出了事故要應(yīng)急,過(guò)節(jié)需要各種的準(zhǔn)備,值班也很混亂。
最初想法很簡(jiǎn)單,希望把這事情做到極簡(jiǎn)、規(guī)范和一致,保證操作能做到幾十年不變,不管誰(shuí)來(lái)做都是同樣的操作。比如裝一臺(tái)機(jī)器或者是部署一個(gè)應(yīng)用,希望它做一百次、一千次也是這樣。第二,把程序代替繁瑣的工具,第三,所有的操作都可記錄,以免出了事故找不到是誰(shuí)操作的。第四,把運(yùn)維操作往前推,希望運(yùn)維操作不要由運(yùn)維來(lái)做了,由研發(fā)來(lái)做,因?yàn)樾枨蟊旧韥?lái)自于研發(fā),不是來(lái)自于運(yùn)維,所以需求來(lái)了也應(yīng)該由研發(fā)去做。
以上是我去年總結(jié)的四句話,看似很普通的四句話,是美團(tuán)點(diǎn)評(píng)做自動(dòng)化過(guò)程中的一個(gè)線條。第一句話,凡是不能變成工具的規(guī)范我們都不看。做運(yùn)維大家會(huì)想到出一點(diǎn)規(guī)范,比如發(fā)布規(guī)范、部署規(guī)范、命名規(guī)范,機(jī)器取名得有一個(gè)規(guī)范,不規(guī)范操作容易出錯(cuò)。在我看來(lái),任何一個(gè)規(guī)范如果不能變成一個(gè)工具去約束的話,這規(guī)范沒(méi)有意義。寫一篇文檔或者一個(gè)要求,發(fā)給研發(fā)去看,只要它不能變成一個(gè)工具就沒(méi)有意義,因?yàn)檫@個(gè)規(guī)范出來(lái),如果布置工具的話,實(shí)現(xiàn)100次可能有一次有人不遵守。但其實(shí)他一次都不遵守,好過(guò)做100次只有一次不遵守,因?yàn)槊看味疾蛔袷兀瑔?wèn)題很好查,而做了100次有一次不遵守,就很難查。比如晚上服務(wù)掛了,一千臺(tái)的服務(wù)器,是其中一臺(tái)的問(wèn)題其實(shí)挺難查的,如果這一千臺(tái)有共同的問(wèn)題,就很好查。
規(guī)范本身沒(méi)有任何的意義,只有它變成一個(gè)工具才有意義,因?yàn)閺?qiáng)調(diào)的是一致性,希望它犯錯(cuò)也是每次犯同樣的錯(cuò),不要每次犯不一樣的錯(cuò)。所以,我們的點(diǎn)評(píng)團(tuán)隊(duì)沒(méi)有howto,沒(méi)有文檔,整個(gè)運(yùn)維很少做文檔。當(dāng)然現(xiàn)在也做了,100多人還是要做一些不能形成工具的規(guī)范,不過(guò)還是堅(jiān)持這一點(diǎn),規(guī)范應(yīng)該想辦法做一個(gè)工具。比如我們有一個(gè)靜默期的要求,春節(jié)長(zhǎng)假前三天不允許發(fā)版本。那么從2013年開始點(diǎn)評(píng)就執(zhí)行這個(gè)規(guī)則的,因?yàn)樗泄ぞ咧С郑l(fā)布系統(tǒng)要有開關(guān),一到時(shí)間就能關(guān)掉,必須走運(yùn)維的審批流通,這個(gè)流程是自動(dòng)化的。但在2015年,新發(fā)布系統(tǒng)不支持這個(gè)開關(guān),因此把這個(gè)規(guī)范停下來(lái)了,不執(zhí)行這個(gè)規(guī)范,因?yàn)闆](méi)有工具支持,執(zhí)行這個(gè)規(guī)范沒(méi)有意義,發(fā)個(gè)通知告訴大家要靜默期,首先要挨罵,其次大家該怎么樣怎么樣,罵完之后扔不執(zhí)行這個(gè)規(guī)范,后來(lái)我們就停下來(lái),直到今年春節(jié)的時(shí)候,終于支持這個(gè)功能了再執(zhí)行這個(gè)規(guī)范。
第二,不是增加power,而是減少power 。解釋一下,在2014年-2016年做運(yùn)維自動(dòng)化相關(guān)工具的時(shí)候,團(tuán)隊(duì)的內(nèi)部也是有很多的爭(zhēng)議的,其中一個(gè)很重要的爭(zhēng)議就是,有相當(dāng)多的同學(xué)認(rèn)為做自動(dòng)化工具是給運(yùn)維的人更大的power ,能做更多的事,大家無(wú)限暢想這個(gè)工具可以怎么樣,一按鍵所有的機(jī)器都重啟起來(lái),其實(shí)很悲劇。我的理念是工具是為了減少power ,不是為了增加power ,為什么這么說(shuō)呢?如果是使之為了更強(qiáng)大的話,其實(shí)手工操作是最強(qiáng)大的,給一個(gè)ssh命令的窗口,一個(gè)root,就是最強(qiáng)大的,什么都可以做。工具本質(zhì)是為了限制,不是為了增強(qiáng),是干不了什么而不是能干什么。比如做自動(dòng)化流程系統(tǒng),在考核自動(dòng)化流程系統(tǒng)的時(shí)候,看它的流程多不多,流程越多說(shuō)明做得越爛。作為一個(gè)運(yùn)維來(lái)說(shuō),我認(rèn)為不應(yīng)該有超過(guò)10個(gè)流程。常見(jiàn)的運(yùn)維操作不會(huì)超過(guò)10個(gè),加機(jī)器、減機(jī)器、重啟機(jī)器,其他的配一個(gè)域名等。如果管理到位一點(diǎn),比如配一個(gè)web的IP,這些應(yīng)該都不需要運(yùn)維來(lái)做,所以超過(guò)10件事是有問(wèn)題的。
第三,解決一個(gè)復(fù)雜的問(wèn)題,不可以引入另一個(gè)復(fù)雜問(wèn)題作為代價(jià)。很多做運(yùn)維的同學(xué),尤其是做了一段時(shí)間后,學(xué)過(guò)很多各種各樣的概念,從最早的ITIL,到現(xiàn)在的SRE等等,容易犯一個(gè)錯(cuò)誤,就是喜歡用復(fù)雜的方法解決復(fù)雜的問(wèn)題,運(yùn)維的體系也好、運(yùn)維自動(dòng)化也好,其實(shí)是一個(gè)簡(jiǎn)單的問(wèn)題。回到最初來(lái)講,運(yùn)維解決的問(wèn)題是保障線上的穩(wěn)定,只有這一件事情。運(yùn)維自動(dòng)化解決什么問(wèn)題?就是讓所有第三方因素或者是人為的因素對(duì)線上穩(wěn)定性造成的傷害越少越好,這個(gè)越少越好來(lái)自于第一變更越少越好,我們?cè)隍v訊后期提出這種理念,沒(méi)有變更才是最好。以前大家說(shuō)管理變更,變更要管理起來(lái),這個(gè)變更完了是永遠(yuǎn)管理不好的,最好不要有變更。比如擴(kuò)容,很多同學(xué)提出節(jié)假日了容量不夠,要實(shí)現(xiàn)一鍵擴(kuò)容,在我的理解里面,我希望實(shí)現(xiàn)不需要擴(kuò)容。
解決一個(gè)復(fù)雜問(wèn)題,如果是用一個(gè)復(fù)雜的方法去解決,或者是引入另外一個(gè)復(fù)雜問(wèn)題的話,把這東西搞得更復(fù)雜了,這是不對(duì)的。比如做監(jiān)控的時(shí)候,是做減法而不是做加法,因?yàn)楦闾珡?fù)雜了沒(méi)有意義,假定監(jiān)控報(bào)警一天超過(guò)一千個(gè)了,是沒(méi)有區(qū)別的,因?yàn)檫@時(shí)候運(yùn)維做的事情肯定就是關(guān)手機(jī),所以要做減法,不能引入復(fù)雜的問(wèn)題,一定要找一個(gè)簡(jiǎn)單的方法。
第三句話和第四句話是類似的,就是工具“極簡(jiǎn)”是一種使命。我看過(guò)很多運(yùn)維自動(dòng)化的工具,包括騰訊、百度,還有國(guó)內(nèi)很多互聯(lián)網(wǎng)公司,因?yàn)槲耶?dāng)時(shí)在招人,面試過(guò)互聯(lián)網(wǎng)公司做工具的同學(xué),很不幸最后一個(gè)人沒(méi)有招,我發(fā)現(xiàn)他們做工具的思路和我的不太一樣,很多做自動(dòng)化工具的同學(xué),往往以為讓工具有價(jià)值,就把它做得復(fù)雜,看起來(lái)很華麗。總之,這不是我的思路,我的思路是極簡(jiǎn)。
比如這個(gè)運(yùn)維自動(dòng)化的工具假設(shè)只有一個(gè)按鈕,那當(dāng)然是最好的,但是做不到,我們不是喬布斯。再如做一個(gè)擴(kuò)容,有很多選項(xiàng)可以選的,什么機(jī)房、哪個(gè)機(jī)房,尤其是規(guī)模比較大的話什么類型的機(jī)器、多少內(nèi)存、多少CPU等等,很多同學(xué)認(rèn)為選項(xiàng)越多,這個(gè)工具越好,越強(qiáng)大,在我看來(lái)選項(xiàng)越少越好,多了以后,第一容易出錯(cuò),萬(wàn)一選錯(cuò)了,接下來(lái)就涉及到研發(fā)和運(yùn)維的PK了。還有一個(gè)是浪費(fèi)了時(shí)間,擴(kuò)容一臺(tái)機(jī)器應(yīng)該是一件不花時(shí)間的事情,選項(xiàng)那么多就要看半天的時(shí)間。從工具表現(xiàn)來(lái)說(shuō),也是工具越簡(jiǎn)單越好。但造成一個(gè)沒(méi)有想到的后果,工具做得很難看,后來(lái)我們也招前端的同學(xué)來(lái)把它做好看一點(diǎn),而不是做復(fù)雜。這幾年做運(yùn)維自動(dòng)化總結(jié)下來(lái)就這四句話。
美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具講一下美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具。最早做的是這樣一個(gè)系統(tǒng),抽離一下主要是四個(gè)東西:中間是一個(gè)CMDB,一套流程系統(tǒng),一套操控平臺(tái)和一套監(jiān)控系統(tǒng)。自動(dòng)化主要是四件事——
第一,資料。所有的自動(dòng)化基于非常準(zhǔn)確、詳盡的資料,尤其是虛擬化、云計(jì)算比較流行的時(shí)代,一臺(tái)機(jī)器在哪個(gè)交換機(jī)上是很重要的信息。比如自動(dòng)擴(kuò)容的時(shí)候,一定不希望同一個(gè)應(yīng)用的兩臺(tái)機(jī)器擴(kuò)到同一個(gè)交換機(jī)上,所以必須要知道這個(gè)信息。資料當(dāng)時(shí)做得很詳細(xì),比如它有幾段網(wǎng)卡,是雙向還是單向連接等。資料是非常重要的,因?yàn)槊缊F(tuán)點(diǎn)評(píng)的規(guī)模很大,大量的機(jī)器部署在不同的城市,不可能每次真正操作的時(shí)候臨時(shí)再看。再如部署的打散問(wèn)題是非常關(guān)鍵的,部署一個(gè)應(yīng)用100個(gè)虛擬機(jī)或者200個(gè)虛擬機(jī),要確保這200個(gè)虛擬機(jī)是打散的,不能在同一個(gè)交換機(jī)或者是同一個(gè)物理機(jī),或者是同一個(gè)機(jī)柜或者是同一個(gè)IDC,要按照一定的規(guī)則打散它,確保掛了之后會(huì)止損,比如四分之一、三分之一、二分之一,就全靠資料庫(kù)的完備,只要差一點(diǎn)點(diǎn)就都有問(wèn)題。
第二,標(biāo)準(zhǔn)操作。剛才說(shuō)到流程不會(huì)超過(guò)10個(gè),這種運(yùn)維的標(biāo)準(zhǔn)操作也不會(huì)超過(guò)十幾個(gè),把這些操作提煉為標(biāo)準(zhǔn)的操作,叫做原子化的操作。想象一下,自己做一個(gè)擴(kuò)容、做一個(gè)上線為例,申請(qǐng)一個(gè)機(jī)器,初始化它的環(huán)境,把它加入監(jiān)控,做一個(gè)配置,基本上這些操作是相對(duì)固定的,原子操作是可以落地下來(lái)的,它是一個(gè)標(biāo)準(zhǔn)化的動(dòng)作。這個(gè)標(biāo)準(zhǔn)化的動(dòng)作把它形成一個(gè)操作庫(kù),會(huì)有人確保這個(gè)標(biāo)準(zhǔn)化動(dòng)作本身的健壯性,比如重啟一臺(tái)機(jī)器這樣的操作,肯定要把操作本身做得特別健壯,確保所有的運(yùn)維,無(wú)論任何時(shí)間,做重啟動(dòng)作的時(shí)候一定用的同一個(gè)標(biāo)準(zhǔn)的操作。
第三,場(chǎng)景是一個(gè)復(fù)雜的動(dòng)作,我們叫做流程。比如今天要給業(yè)務(wù)部署300臺(tái)機(jī)器,或是今天上線一個(gè)新業(yè)務(wù)等等這是一個(gè)場(chǎng)景,一定能分解很多標(biāo)準(zhǔn)化的操作去完成的,場(chǎng)景就是流程,所以在開發(fā)的時(shí)候我們是流程系統(tǒng)。
獨(dú)立于這三個(gè)之外就是監(jiān)控。這個(gè)監(jiān)控是多層面的,操作系統(tǒng)、監(jiān)控應(yīng)用,也要監(jiān)控發(fā)布變更,我要知道有多少變更,多少發(fā)布。總的來(lái)說(shuō),美團(tuán)點(diǎn)評(píng)自動(dòng)化的體系就是基于這么一個(gè)大框架,當(dāng)然框架有4個(gè),里面的產(chǎn)品有很多。只要框架框好了,產(chǎn)品多是沒(méi)有關(guān)系的,比如流程系統(tǒng)做兩套沒(méi)有關(guān)系,只要在同一個(gè)框架就好。
自動(dòng)化工具講完了,講一下當(dāng)時(shí)的過(guò)程。當(dāng)我們按剛才說(shuō)的思路做了很多自動(dòng)化工具之后,很快陷入了一個(gè)迷茫,覺(jué)得運(yùn)維不過(guò)如此,人生好像很灰暗的感覺(jué),而且這種工具很會(huì)帶來(lái)一種副作用,剛開始的時(shí)候大家還是挺開心的,有了工具之后迅速的工作效率提高了,需要半夜應(yīng)急的事情就少了,有些事情真的可以研發(fā)去處理了。有一次運(yùn)維團(tuán)隊(duì)年會(huì),大家出發(fā)了以后突然接到電話,有一個(gè)事情研發(fā)那邊需要線上做一個(gè)操作,我就跟他說(shuō)有流程,在流程上申請(qǐng)一下就好了,而且是自動(dòng)的,果然他一申請(qǐng)把它的操作做好了。
換做以前,那一年在騰訊的時(shí)候,我們的大部門去越南團(tuán)建,萬(wàn)一出故障了誰(shuí)處理?于是大家都去了,我一個(gè)人沒(méi)有去,在家里守著電腦,等著處理故障。后來(lái)在美團(tuán)點(diǎn)評(píng),研發(fā)自己的流程就可以把這件事搞定,說(shuō)明自動(dòng)化工具確實(shí)是有效的, 2014年底,這套東西還獲得了公司季度大獎(jiǎng)。今年我們運(yùn)維團(tuán)隊(duì)獲得了美團(tuán)點(diǎn)評(píng)的年度大獎(jiǎng),還是非常不容易的。當(dāng)時(shí)我們做自動(dòng)化做完后,覺(jué)得很開心,然而開心沒(méi)有幾天大家陷入迷茫了。工具做太多之后,很快陷入了一種失控,解決問(wèn)題開始帶來(lái)問(wèn)題了,帶來(lái)問(wèn)題非常多,開發(fā)也很多,很亂,信息開始不一致,工具越來(lái)越危險(xiǎn),于是我們開始思考——
階段2:產(chǎn)品化思考的結(jié)果,我們把它叫做產(chǎn)品化。一開始做工具,認(rèn)為它是一個(gè)工具,實(shí)現(xiàn)自動(dòng)化的工具,沒(méi)有把它理解為產(chǎn)品,后來(lái)思路轉(zhuǎn)變了一下,把這工具轉(zhuǎn)變成產(chǎn)品,就跟開發(fā)一個(gè)美團(tuán)這樣的APP一樣的,它是一個(gè)產(chǎn)品,比如把這個(gè)CMDB或者流程定位成一個(gè)產(chǎn)品而不是一個(gè)工具,當(dāng)想到這一點(diǎn)之后就豁然開朗了,產(chǎn)品就不一樣了,做產(chǎn)品首先有產(chǎn)品經(jīng)理,也可以招女同學(xué)來(lái)做PM,諸如此類運(yùn)營(yíng)都做起來(lái)了。
階段3:運(yùn)營(yíng)化做了產(chǎn)品之后,工具確實(shí)解決了剛剛說(shuō)的失控問(wèn)題,但又陷入一個(gè)迷茫,簡(jiǎn)單來(lái)說(shuō)就是運(yùn)維和業(yè)務(wù)的關(guān)系。運(yùn)維可以說(shuō)在整個(gè)技術(shù)鏈條的最后端,食物鏈的最低端,如何才能體現(xiàn)運(yùn)維價(jià)值?這時(shí)我們又整理出一套新的思路出來(lái),叫做質(zhì)量運(yùn)營(yíng),這里面的想法與SRE有一些類似。質(zhì)量運(yùn)營(yíng)的想法很簡(jiǎn)單,從監(jiān)控系統(tǒng)里面不斷的提煉數(shù)據(jù),把監(jiān)控的數(shù)據(jù)變成一個(gè)質(zhì)量指標(biāo),以這個(gè)指標(biāo)去驅(qū)動(dòng)整個(gè)研發(fā)體系。因?yàn)楹芏嗟膯?wèn)題都是開發(fā)相關(guān)的,比如這個(gè)研發(fā)SQL語(yǔ)句寫得比較差,慢SQL比較多,就比較容易出故障,線上壓力一旦大一點(diǎn),數(shù)據(jù)庫(kù)都抗不住了。對(duì)這個(gè)問(wèn)題以前的做法,現(xiàn)在線上掛了,查出來(lái)是一條慢SQL引起的,大家開始互相PK,研發(fā)說(shuō)我沒(méi)有改過(guò),這條SQL一直都是這樣的,運(yùn)維說(shuō)就是你這條SQL引起的,這是常見(jiàn)的套路。但是,現(xiàn)在反過(guò)來(lái),運(yùn)維平時(shí)就監(jiān)控每個(gè)應(yīng)用的慢SQL的個(gè)數(shù),如果比較多,我們認(rèn)為它是一個(gè)亞健康的狀態(tài),即使沒(méi)有出問(wèn)題,也應(yīng)該降下來(lái)。
美團(tuán)點(diǎn)評(píng)做的不止是一個(gè)慢SQL這么簡(jiǎn)單,我們把運(yùn)營(yíng)上很多的質(zhì)量數(shù)據(jù),根據(jù)這個(gè)質(zhì)量數(shù)據(jù)去推動(dòng)研發(fā)把質(zhì)量數(shù)據(jù)改善,運(yùn)維不斷的檢測(cè)這個(gè)數(shù)據(jù),直到這個(gè)數(shù)據(jù)確實(shí)降下去了。DOM是美團(tuán)點(diǎn)評(píng)的質(zhì)量平臺(tái),類似于報(bào)表的平臺(tái),在上面不斷放入很多的質(zhì)量數(shù)據(jù),拿這個(gè)數(shù)據(jù)去推動(dòng)研發(fā),基本上能想到的都有,跳板機(jī)、質(zhì)量運(yùn)營(yíng)、消息隊(duì)列,CAT、云平臺(tái)、Nginx等,計(jì)劃中的每一件事情都被定義了出來(lái),有一套質(zhì)量指標(biāo),質(zhì)量指標(biāo)完全可以追溯和詳細(xì)化的,所謂的追溯就是可以看到過(guò)去以來(lái)所有的,詳細(xì)就是可以一直往下點(diǎn),比如這個(gè)部門這臺(tái)DB得分是75分,點(diǎn)進(jìn)去看到為什么得75分?可能有慢SQL5000個(gè),再點(diǎn)進(jìn)去可以看到慢SQL5000個(gè)到底是哪5000個(gè),這5000個(gè)到底是誰(shuí)的?因?yàn)镃MDB里面記錄了所有的應(yīng)用信息,研發(fā)人員對(duì)應(yīng)的信息,所以效率非常高。
還有一個(gè)DB的健康表,其中有慢查詢得分多少,磁盤使用率、鎖情況得分多少,延遲一致性、綠帽子庫(kù),大表,容量系數(shù)等等,數(shù)據(jù)會(huì)不斷的迭代。因?yàn)楣救吮容^多,美團(tuán)點(diǎn)評(píng)的做法一般是橫向?qū)Ρ取H魏我患虑榭傆袌F(tuán)隊(duì)做得比較好,有團(tuán)隊(duì)做得比較差,讓大家做橫向?qū)Ρ龋梢钥吹侥膫€(gè)團(tuán)隊(duì)做得比較好,哪個(gè)團(tuán)隊(duì)做得比較差。通過(guò)這樣的方式刺激大家做改進(jìn),因?yàn)檎l(shuí)也不愿意自己團(tuán)隊(duì)做得比別的團(tuán)隊(duì)差,這是作為技術(shù)團(tuán)隊(duì)的修養(yǎng)。
質(zhì)量運(yùn)營(yíng),一句話就是提煉指標(biāo)出來(lái),不是等到它出事了,也不是響應(yīng)研發(fā)需求,而是運(yùn)維主動(dòng)提煉這種指標(biāo)出來(lái),并推動(dòng)研發(fā)把可能造成影響的指標(biāo)降下去。去年2016年做的比較多的,一個(gè)是應(yīng)用的平均響應(yīng)時(shí)間,比如一個(gè)java 應(yīng)用, call一下的平均響應(yīng)時(shí)間,時(shí)間很長(zhǎng)肯定容易出故障,負(fù)載一高就有超時(shí)等等各種故障,平時(shí)響應(yīng)的時(shí)間100毫秒看起來(lái)還好,但是負(fù)載一旦提高就會(huì)有問(wèn)題了,所以要求不能超過(guò)50毫秒,這個(gè)要求一旦定出來(lái),就出質(zhì)量報(bào)表,看公司所有的應(yīng)用,現(xiàn)在的平均值是多少、高了是多少、低了是多少,分成團(tuán)隊(duì)、部門,馬上出TOP10、TOP20的列表,推動(dòng)做得比較差的同學(xué)改進(jìn)。還比如APP的響應(yīng)時(shí)間,也是類似的。慢SQL見(jiàn)得比較多,我們的打壓還是比較有用的,這樣做下來(lái),慢SQL引起的故障就少了很多。
自此之后,運(yùn)維團(tuán)隊(duì)和之前有了很大的變化,從完全輔助被動(dòng)的狀態(tài),開始進(jìn)入所謂的主導(dǎo)的狀態(tài)。過(guò)去都是研發(fā)需要運(yùn)維做什么,然后運(yùn)維做什么。現(xiàn)在都是運(yùn)維需要研發(fā)做什么,大家來(lái)做什么。團(tuán)隊(duì)的職責(zé)比以前有很大的變化,現(xiàn)在大概有三部分:第一是質(zhì)量運(yùn)營(yíng),第二是自動(dòng)化的開發(fā),第三是DO分離的O。三年前美團(tuán)點(diǎn)評(píng)基本上就在做這三部分,D是開發(fā)O是運(yùn)維,我們是將DO分離的O逐漸減少。
總結(jié)與思考簡(jiǎn)單總結(jié)一下,美團(tuán)運(yùn)維的探索之路,從一開始做工具、到做產(chǎn)品,到做運(yùn)營(yíng), 2016年主要的精力是做運(yùn)營(yíng),團(tuán)隊(duì)也變成了四大部分。以前自動(dòng)化工具注重的是一些功能,團(tuán)隊(duì)績(jī)效就是看今年做什么功能,但是這兩年不看功能了,看的是工具推廣得如何,運(yùn)營(yíng)得怎么樣。現(xiàn)在已經(jīng)是數(shù)據(jù)驅(qū)動(dòng)了,早期是事故驅(qū)動(dòng)比較多,出問(wèn)題了由大家來(lái)驅(qū)動(dòng),做各種改進(jìn)、各種輔助、各種case study。流程驅(qū)動(dòng),運(yùn)維設(shè)計(jì)各種各樣的規(guī)則,其實(shí)都沒(méi)有用,沒(méi)有哪一次規(guī)則起過(guò)作用。現(xiàn)在是數(shù)據(jù)驅(qū)動(dòng),看數(shù)據(jù)報(bào)表,而且不斷的迭代。
最后留給大家兩句話:云時(shí)代以后,大家離基礎(chǔ)設(shè)施越來(lái)越遠(yuǎn)之后,運(yùn)維怎么體現(xiàn)價(jià)值?第二,到底是往上走還是往下走?所謂的往上走就是往業(yè)務(wù)的角度走,往下走就是相對(duì)比較傳統(tǒng)的,比如說(shuō)我對(duì)OS研究更深等等,到底應(yīng)該如何走?這是我們尚在思考的話題。謝謝大家。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/26819.html
摘要:今天我將美團(tuán)點(diǎn)評(píng)這幾年在運(yùn)維方面做的一些工作,以及自己的思考與大家分享一下。所以在美團(tuán)點(diǎn)評(píng)給自己的使命,就是要把美團(tuán)點(diǎn)評(píng)的運(yùn)維做到騰訊百度的水平,把缺失的過(guò)程成長(zhǎng)的過(guò)程由自己做出來(lái)。美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具講一下美團(tuán)點(diǎn)評(píng)的自動(dòng)化工具。 數(shù)人云當(dāng)西方的SRE遇上東方的互聯(lián)網(wǎng)Meetup第一彈實(shí)錄來(lái)啦! 本次分享嘉賓是美團(tuán)點(diǎn)評(píng)運(yùn)維中心高級(jí)總監(jiān)鐘紅軍,他向我們?cè)敿?xì)介紹了美團(tuán)點(diǎn)評(píng)近3年來(lái)在大規(guī)模運(yùn)...
摘要:正在走遠(yuǎn),新年之初,小數(shù)精選過(guò)去一年閱讀量居高的技術(shù)干貨,從容器到微服務(wù)云原生,匯集成篇精華集錦,充分反映了這一年的技術(shù)熱點(diǎn)走向。此文值得收藏,方便隨時(shí)搜索和查看。,小數(shù)將繼續(xù)陪伴大家,為朋友們奉獻(xiàn)更有逼格的技術(shù)內(nèi)容。 2017正在走遠(yuǎn),新年之初,小數(shù)精選過(guò)去一年閱讀量居高的技術(shù)干貨,從容器、K8S 到微服務(wù)、云原生、Service Mesh,匯集成52篇精華集錦,充分反映了這一年的技...
摘要:本文為喜茶喜茶互聯(lián)網(wǎng)事業(yè)部總經(jīng)理陳霈霖老師分享的數(shù)字化三支柱傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型的眾妙之門案例實(shí)錄。在我講述數(shù)字化三支柱之前,我們不妨先來(lái)看看喜茶誕生的故事。 showImg(https://segmentfault.com/img/bVblRz3?w=640&h=427); 喜茶憑借「喜茶GO」小程序躋身第七屆全球軟件案例研究峰會(huì)(簡(jiǎn)稱:TOP100summit),為100個(gè)技術(shù)案例中...
摘要:本文將介紹美團(tuán)點(diǎn)評(píng)整個(gè)數(shù)據(jù)庫(kù)平臺(tái)的演進(jìn)歷史,以及我們當(dāng)前的情況和面臨的一些挑戰(zhàn),最后分享一下我們從自動(dòng)化到智能化運(yùn)維過(guò)渡時(shí),所進(jìn)行的思考探索與實(shí)踐。 從自動(dòng)化到智能化運(yùn)維過(guò)渡時(shí),美團(tuán)DBA團(tuán)隊(duì)進(jìn)行了哪些思考、探索與實(shí)踐?本文根據(jù)趙應(yīng)鋼在第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)上的演講內(nèi)容整理而成,部分內(nèi)容有更新。 背景 近些年,傳統(tǒng)的數(shù)據(jù)庫(kù)運(yùn)維方式已經(jīng)越來(lái)越難于滿足業(yè)務(wù)方對(duì)數(shù)據(jù)庫(kù)的穩(wěn)定性、可用性、靈活...
摘要:本文將介紹美團(tuán)點(diǎn)評(píng)整個(gè)數(shù)據(jù)庫(kù)平臺(tái)的演進(jìn)歷史,以及我們當(dāng)前的情況和面臨的一些挑戰(zhàn),最后分享一下我們從自動(dòng)化到智能化運(yùn)維過(guò)渡時(shí),所進(jìn)行的思考探索與實(shí)踐。 從自動(dòng)化到智能化運(yùn)維過(guò)渡時(shí),美團(tuán)DBA團(tuán)隊(duì)進(jìn)行了哪些思考、探索與實(shí)踐?本文根據(jù)趙應(yīng)鋼在第九屆中國(guó)數(shù)據(jù)庫(kù)技術(shù)大會(huì)上的演講內(nèi)容整理而成,部分內(nèi)容有更新。 背景 近些年,傳統(tǒng)的數(shù)據(jù)庫(kù)運(yùn)維方式已經(jīng)越來(lái)越難于滿足業(yè)務(wù)方對(duì)數(shù)據(jù)庫(kù)的穩(wěn)定性、可用性、靈活...
閱讀 3138·2021-11-24 10:24
閱讀 2930·2021-11-11 16:54
閱讀 3066·2021-09-22 15:55
閱讀 2027·2019-08-30 15:44
閱讀 1901·2019-08-29 18:41
閱讀 2761·2019-08-29 13:43
閱讀 3053·2019-08-29 12:51
閱讀 1171·2019-08-26 12:19