摘要:美團的容器使用狀況是目前線上業(yè)務(wù)已經(jīng)超過個服務(wù),容器實例數(shù)超過個,很多大并發(fā)低延時要求的核心鏈路服務(wù),已經(jīng)穩(wěn)定地運行在之上。美團容器平臺的基本架構(gòu)首先介紹一下美團容器平臺的基礎(chǔ)架構(gòu),相信各家的容器平臺架構(gòu)大體都差不多。
本文根據(jù)美團基礎(chǔ)架構(gòu)部/容器研發(fā)中心技術(shù)總監(jiān)歐陽堅在2018 QCon(全球軟件開發(fā)大會)上的演講內(nèi)容整理而成。背景
美團的容器集群管理平臺叫做HULK。漫威動畫里的HULK在發(fā)怒時會變成“綠巨人”,它的這個特性和容器的“彈性伸縮”很像,所以我們給這個平臺起名為HULK。貌似有一些公司的容器平臺也叫這個名字,純屬巧合。
2016年,美團開始使用容器,當(dāng)時美團已經(jīng)具備一定的規(guī)模,在使用容器之前就已經(jīng)存在的各種系統(tǒng),包括CMDB、服務(wù)治理、監(jiān)控告警、發(fā)布平臺等等。我們在探索容器技術(shù)時,很難放棄原有的資產(chǎn)。所以容器化的第一步,就是打通容器的生命周期和這些平臺的交互,例如容器的申請/創(chuàng)建、刪除/釋放、發(fā)布、遷移等等。然后我們又驗證了容器的可行性,證實容器可以作為線上核心業(yè)務(wù)的運行環(huán)境。
2018年,經(jīng)過兩年的運營和實踐探索,我們對容器平臺進(jìn)行了一次升級,這就是容器集群管理平臺HULK 2.0。
把基于OpenStack的調(diào)度系統(tǒng)升級成容器編排領(lǐng)域的事實標(biāo)準(zhǔn)Kubernetes(以后簡稱K8s)。
提供了更豐富可靠的容器彈性策略。
針對之前在基礎(chǔ)系統(tǒng)上碰到的一些問題,進(jìn)行了優(yōu)化和打磨。
美團的容器使用狀況是:目前線上業(yè)務(wù)已經(jīng)超過3000個服務(wù),容器實例數(shù)超過30000個,很多大并發(fā)、低延時要求的核心鏈路服務(wù),已經(jīng)穩(wěn)定地運行在HULK之上。本文主要介紹我們在容器技術(shù)上的一些實踐,屬于基礎(chǔ)系統(tǒng)優(yōu)化和打磨。
美團容器平臺的基本架構(gòu)首先介紹一下美團容器平臺的基礎(chǔ)架構(gòu),相信各家的容器平臺架構(gòu)大體都差不多。
首先,容器平臺對外對接服務(wù)治理、發(fā)布平臺、CMDB、監(jiān)控告警等等系統(tǒng)。通過和這些系統(tǒng)打通,容器實現(xiàn)了和虛擬機基本一致的使用體驗。研發(fā)人員在使用容器時,可以和使用VM一樣,不需要改變原來的使用習(xí)慣。
此外,容器提供彈性擴容能力,能根據(jù)一定的彈性策略動態(tài)增加和減少服務(wù)的容器節(jié)點數(shù),從而動態(tài)地調(diào)整服務(wù)處理能力。這里還有個特殊的模塊——“服務(wù)畫像”,它的主要功能是通過對服務(wù)容器實例運行指標(biāo)的搜集和統(tǒng)計,更好的完成調(diào)度容器、優(yōu)化資源分配。比如可以根據(jù)某服務(wù)的容器實例的CPU、內(nèi)存、IO等使用情況,來分辨這個服務(wù)屬于計算密集型還是IO密集型服務(wù),在調(diào)度時盡量把互補的容器放在一起。再比如,我們可以知道某個服務(wù)的每個容器實例在運行時會有大概500個進(jìn)程,我們就會在創(chuàng)建容器時,給該容器加上一個合理的進(jìn)程數(shù)限制(比如最大1000個進(jìn)程),從而避免容器在出現(xiàn)問題時,占用過多的系統(tǒng)資源。如果這個服務(wù)的容器在運行時,突然申請創(chuàng)建20000個進(jìn)程,我們有理由相信是業(yè)務(wù)容器遇到了Bug,通過之前的資源約束對容器進(jìn)行限制,并發(fā)出告警,通知業(yè)務(wù)及時進(jìn)行處理。
往下一層是“容器編排”和“鏡像管理”。容器編排解決容器動態(tài)實例的問題,包括容器何時被創(chuàng)建、創(chuàng)建到哪個位置、何時被刪除等等。鏡像管理解決容器靜態(tài)實例的問題,包括容器鏡像應(yīng)該如何構(gòu)建、如何分發(fā)、分發(fā)的位置等等。
最下層是我們的容器運行時,美團使用主流的Linux+Docker容器方案,HULK Agent是我們在服務(wù)器上的管理代理程序。
把前面的“容器運行時”具體展開,可以看到這張架構(gòu)圖,按照從下到上的順序介紹:
最下層是CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)這些基礎(chǔ)物理資源。
往上一層,我們使用的是CentOS7作為宿主機操作系統(tǒng),Linux內(nèi)核的版本是3.10。我們在CentOS發(fā)行版默認(rèn)內(nèi)核的基礎(chǔ)上,加入一些美團為容器場景研發(fā)的新特性,同時為高并發(fā)、低延時的服務(wù)型業(yè)務(wù)做了一些內(nèi)核參數(shù)的優(yōu)化。
再往上一層,我們使用的是CentOS發(fā)行版里自帶的Docker,當(dāng)前的版本是1.13,同樣,加入了一些我們自己的特性和增強。HULK Agent是我們自己開發(fā)的主機管理Agent,在宿主機上管理Agent。Falcon Agent同時存在于宿主機和容器內(nèi)部,它的作用是收集宿主機和容器的各種基礎(chǔ)監(jiān)控指標(biāo),上報給后臺和監(jiān)控平臺。
最上一層是容器本身。我們現(xiàn)在主要支持CentOS 6和CentOS 7兩種容器。在CentOS 6中有一個container init進(jìn)程,它是我們開發(fā)容器內(nèi)部的1號進(jìn)程,作用是初始化容器和拉起業(yè)務(wù)進(jìn)程。在CentOS 7中,我們使用了系統(tǒng)自帶的systemd作為容器中的1號進(jìn)程。我們的容器支持各種主流編程語言,包括Java、Python、Node.js、C/C++等等。在語言層之上是各種代理服務(wù),包括服務(wù)治理的Agent、日志Agent、加密Agent等等。同時,我們的容器也支持美團內(nèi)部的一些業(yè)務(wù)環(huán)境,例如set信息、泳道信息等,配合服務(wù)治理體系,可以實現(xiàn)服務(wù)調(diào)用的智能路由。
美團主要使用了CentOS系列的開源組件,因為我們認(rèn)為Red Hat有很強的開源技術(shù)實力,比起直接使用開源社區(qū)的版本,我們希望Red Hat的開源版本能夠幫助解決大部分的系統(tǒng)問題。我們也發(fā)現(xiàn),即使部署了CentOS的開源組件,仍然有可能會碰到社區(qū)和Red Hat沒有解決的問題。從某種程度上也說明,國內(nèi)大型互聯(lián)公司在技術(shù)應(yīng)用的場景、規(guī)模、復(fù)雜度層面已經(jīng)達(dá)到了世界領(lǐng)先的水平,所以才會先于社區(qū)、先于Red Hat的客戶遇到這些問題。
容器遇到的一些問題在容器技術(shù)本身,我們主要遇到了4個問題:隔離、穩(wěn)定性、性能和推廣。
隔離包含兩個層面:第一個問題是,容器能不能正確認(rèn)識自身資源配置;第二個問題是,運行在同一臺服務(wù)器上的容器會不會互相影響。比如某一臺容器的IO很高,就會導(dǎo)致同主機上的其他容器服務(wù)延時增加。
穩(wěn)定性:這是指在高壓力、大規(guī)模、長時間運行以后,系統(tǒng)功能可能會出現(xiàn)不穩(wěn)定的問題,比如容器無法創(chuàng)建、刪除,因為軟件問題發(fā)生卡死、宕機等問題。
性能:在虛擬化技術(shù)和容器技術(shù)比較時,大家普遍都認(rèn)為容器的執(zhí)行效率會更高,但是在實踐中,我們遇到了一些特例:同樣的代碼在同樣配置的容器上,服務(wù)的吞吐量、響應(yīng)時延反而不如虛擬機。
推廣:當(dāng)我們把前面幾個問題基本上都解決以后,仍然可能會碰到業(yè)務(wù)不愿意使用容器的情況,其中原因一部分是技術(shù)因素,例如容器接入難易程度、周邊工具、生態(tài)等都會影響使用容器的成本。推廣也不是一個純技術(shù)問題,跟公司內(nèi)部的業(yè)務(wù)發(fā)展階段、技術(shù)文化、組織設(shè)置和KPI等因素都密切相關(guān)。
容器的實現(xiàn)容器本質(zhì)上是把系統(tǒng)中為同一個業(yè)務(wù)目標(biāo)服務(wù)的相關(guān)進(jìn)程合成一組,放在一個叫做namespace的空間中,同一個namespace中的進(jìn)程能夠互相通信,但看不見其他namespace中的進(jìn)程。每個namespace可以擁有自己獨立的主機名、進(jìn)程ID系統(tǒng)、IPC、網(wǎng)絡(luò)、文件系統(tǒng)、用戶等等資源。在某種程度上,實現(xiàn)了一個簡單的虛擬:讓一個主機上可以同時運行多個互不感知的系統(tǒng)。
此外,為了限制namespace對物理資源的使用,對進(jìn)程能使用的CPU、內(nèi)存等資源需要做一定的限制。這就是Cgroup技術(shù),Cgroup是Control group的意思。比如我們常說的4c4g的容器,實際上是限制這個容器namespace中所用的進(jìn)程,最多能夠使用4核的計算資源和4GB的內(nèi)存。
簡而言之,Linux內(nèi)核提供namespace完成隔離,Cgroup完成資源限制。namespace+Cgroup構(gòu)成了容器的底層技術(shù)(rootfs是容器文件系統(tǒng)層技術(shù))。
美團的解法、改進(jìn)和優(yōu)化 隔離之前一直和虛擬機打交道,但直到用上容器,才發(fā)現(xiàn)在容器里面看到的CPU、Memory的信息都是服務(wù)器主機的信息,而不是容器自身的配置信息。直到現(xiàn)在,社區(qū)版的容器還是這樣,比如一個4c4g的容器,在容器內(nèi)部可以看到有40顆CPU、196GB內(nèi)存的資源,這些資源其實是容器所在宿主機的信息。這給人的感覺,就像是容器的“自我膨脹”,覺得自己能力很強,但實際上并沒有,還會帶來很多問題。
上圖是一個內(nèi)存信息隔離的例子。獲取系統(tǒng)內(nèi)存信息時,社區(qū)Linux無論在主機上還是在容器中,內(nèi)核都是統(tǒng)一返回主機的內(nèi)存信息,如果容器內(nèi)的應(yīng)用,按照它發(fā)現(xiàn)的宿主機內(nèi)存來進(jìn)行配置的話,實際資源是遠(yuǎn)遠(yuǎn)不夠的,導(dǎo)致的結(jié)果就是:系統(tǒng)很快會發(fā)生OOM異常。
我們做的隔離工作,是在容器中獲取內(nèi)存信息時,內(nèi)核根據(jù)容器的Cgroup信息,返回容器的內(nèi)存信息(類似LXCFS的工作)。
CPU信息隔離的實現(xiàn)和內(nèi)存的類似,不再贅述,這里舉一個CPU數(shù)目影響應(yīng)用性能例子。
大家都知道,JVM GC(垃圾對象回收)對Java程序執(zhí)行性能有一定的影響。默認(rèn)的JVM使用公式“ParallelGCThreads = (ncpus <= 8) ? ncpus : 3 + ((ncpus * 5) / 8)” 來計算做并行GC的線程數(shù),其中ncpus是JVM發(fā)現(xiàn)的系統(tǒng)CPU個數(shù)。一旦容器中JVM發(fā)現(xiàn)了宿主機的CPU個數(shù)(通常比容器實際CPU限制多很多),這就會導(dǎo)致JVM啟動過多的GC線程,直接的結(jié)果就導(dǎo)致GC性能下降。Java服務(wù)的感受就是延時增加,TP監(jiān)控曲線突刺增加,吞吐量下降。針對這個問題有各種解法:
顯式的傳遞JVM啟動參數(shù)“-XX:ParallelGCThreads”告訴JVM應(yīng)該啟動幾個并行GC線程。它的缺點是需要業(yè)務(wù)感知,為不同配置的容器傳不同的JVM參數(shù)。
在容器內(nèi)使用Hack過的glibc,使JVM(通過sysconf系統(tǒng)調(diào)用)能正確獲取容器的CPU資源數(shù)。我們在一段時間內(nèi)使用的就是這種方法。其優(yōu)點是業(yè)務(wù)不需要感知,并且能自動適配不同配置的容器。缺點是必須使用改過的glibc,有一定的升級維護成本,如果使用的鏡像是原生的glibc,問題也仍然存在。
我們在新平臺上通過對內(nèi)核的改進(jìn),實現(xiàn)了容器中能獲取正確CPU資源數(shù),做到了對業(yè)務(wù)、鏡像和編程語言都透明(類似問題也可能影響OpenMP、Node.js等應(yīng)用的性能)。
有一段時間,我們的容器是使用root權(quán)限進(jìn)行運行,實現(xiàn)的方法是在docker run的時候加入‘privileged=true’參數(shù)。這種粗放的使用方式,使容器能夠看到所在服務(wù)器上所有容器的磁盤,導(dǎo)致了安全問題和性能問題。安全問題很好理解,為什么會導(dǎo)致性能問題呢?可以試想一下,每個容器都做一次磁盤狀態(tài)掃描的場景。當(dāng)然,權(quán)限過大的問題還體現(xiàn)在可以隨意進(jìn)行mount操作,可以隨意的修改NTP時間等等。
在新版本中,我們?nèi)サ袅巳萜鞯膔oot權(quán)限,發(fā)現(xiàn)有一些副作用,比如導(dǎo)致一些系統(tǒng)調(diào)用失敗。我們默認(rèn)給容器額外增加了sys_ptrace和sys_admin兩個權(quán)限,讓容器可以運行GDB和更改主機名。如果有特例容器需要更多的權(quán)限,可以在我們的平臺上按服務(wù)粒度進(jìn)行配置。
Linux有兩種IO:Direct IO和Buffered IO。Direct IO直接寫磁盤,Buffered IO會先寫到緩存再寫磁盤,大部分場景下都是Buffered IO。
我們使用的Linux內(nèi)核3.X,社區(qū)版本中所有容器Buffer IO共享一個內(nèi)核緩存,并且緩存不隔離,沒有速率限制,導(dǎo)致高IO容器很容易影響同主機上的其他容器。Buffer IO緩存隔離和限速在Linux 4.X里通過Cgroup V2實現(xiàn),有了明顯的改進(jìn),我們還借鑒了Cgroup V2的思想,在我們的Linux 3.10內(nèi)核實現(xiàn)了相同的功能:每個容器根據(jù)自己的內(nèi)存配置有對應(yīng)比例的IO Cache,Cache的數(shù)據(jù)寫到磁盤的速率受容器Cgroup IO配置的限制。
Docker本身支持較多對容器的Cgroup資源限制,但是K8s調(diào)用Docker時可以傳遞的參數(shù)較少,為了降低容器間的互相影響,我們基于服務(wù)畫像的資源分配,對不同服務(wù)的容器設(shè)定不同的資源限制,除了常見的CPU、內(nèi)存外,還有IO的限制、ulimit限制、PID限制等等。所以我們擴展了K8s來完成這些工作。
業(yè)務(wù)在使用容器的過程中產(chǎn)生core dump文件是常見的事,比如C/C++程序內(nèi)存訪問越界,或者系統(tǒng)OOM的時候,系統(tǒng)選擇占用內(nèi)存多的進(jìn)程殺死,默認(rèn)都會生成一個core dump文件。
社區(qū)容器系統(tǒng)默認(rèn)的core dump文件會生成在宿主機上,由于一些core dump文件比較大,比如JVM的core dump通常是幾個GB,或者有些存在Bug的程序,其頻發(fā)的core dump很容易快速寫滿宿主機的存儲,并且會導(dǎo)致高磁盤IO,也會影響到其他容器。還有一個問題是:業(yè)務(wù)容器的使用者沒有權(quán)限訪問宿主機,從而拿不到dump文件進(jìn)行下一步的分析。
為此,我們對core dump的流程進(jìn)行了修改,讓dump文件寫到容器自身的文件系統(tǒng)中,并且使用容器自己的Cgroup IO吞吐限制。
穩(wěn)定性我們在實踐中發(fā)現(xiàn),影響系統(tǒng)穩(wěn)定性的主要是Linux Kernel和Docker。雖然它們本身是很可靠的系統(tǒng)軟件,但是在大規(guī)模、高強度的場景中,還是會存在一些Bug。這也從側(cè)面說明,我們國內(nèi)互聯(lián)網(wǎng)公司在應(yīng)用規(guī)模和應(yīng)用復(fù)雜度層面也屬于全球領(lǐng)先。
在內(nèi)核方面,美團發(fā)現(xiàn)了Kernel 4.x Buffer IO限制的實現(xiàn)問題,得到了社區(qū)的確認(rèn)和修復(fù)。我們還跟進(jìn)了一系列CentOS的Ext4補丁,解決了一段時間內(nèi)進(jìn)程頻繁卡死的問題。
我們碰到了兩個比較關(guān)鍵的Red Hat版Docker穩(wěn)定性問題:
在Docker服務(wù)重啟以后,Docker exec無法進(jìn)入容器,這個問題比較復(fù)雜。在解決之前我們用nsenter來代替Docker exec并積極反饋給RedHat。后來Red Hat在今年初的一個更新解決了這個問題。https://access.redhat.com/errata/RHBA-2017:1620
是在特定條件下Docker Daemon會Panic,導(dǎo)致容器無法刪除。經(jīng)過我們自己Debug,并對比最新的代碼,發(fā)現(xiàn)問題已經(jīng)在Docker upstream中得到解決,反饋給Red Hat也很快得到了解決。https://github.com/projectatomic/containerd/issues/2
面對系統(tǒng)內(nèi)核、Docker、K8s這些開源社區(qū)的系統(tǒng)軟件,存在一種觀點是:我們不需要自己分析問題,只需要拿社區(qū)的最新更新就行了。但是我們并不認(rèn)同,我們認(rèn)為技術(shù)團隊自身的能力很重要,主要是如下原因:
美團的應(yīng)用規(guī)模大、場景復(fù)雜,很多問題也許很多企業(yè)都沒有遇到過,不能被動的等別人來解答。
對于一些實際的業(yè)務(wù)問題或者需求(例如容器內(nèi)正確返回CPU數(shù)目),社區(qū)也許覺得不重要,或者不是正確的理念,可能就不會解決。
社區(qū)很多時候只在Upstream解決問題,而Upstream通常不穩(wěn)定,即使有Backport到我們正在使用的版本,排期也很難進(jìn)行保障。
社區(qū)會發(fā)布很多補丁,通常描述都比較晦澀難懂。如果沒有對問題的深刻理解,很難把遇到的實際問題和一系列補丁聯(lián)系起來。
對于一些復(fù)雜問題,社區(qū)的解決方案不一定適用于我們自身的實際場景,我們需要自身有能力進(jìn)行判斷和取舍。
美團在解決開源系統(tǒng)問題時,一般會經(jīng)歷五個階段:自己深挖、研發(fā)解決、關(guān)注社區(qū)、和社區(qū)交互,最后貢獻(xiàn)給社區(qū)。
性能容器平臺性能,主要包括兩個方面性能:
業(yè)務(wù)服務(wù)運行在容器上的性能。
容器操作(創(chuàng)建、刪除等等)的性能。
上圖是我們CPU分配的一個例子,我們采用的主流服務(wù)器是兩路24核服務(wù)器,包含兩個Node,每個12核,算上超線程共48顆邏輯CPU。屬于典型的NUMA(非一致訪存)架構(gòu):系統(tǒng)中每個Node有自己的內(nèi)存,Node內(nèi)的CPU訪問自己的內(nèi)存的速度,比訪問另一個Node內(nèi)存的速度快很多(差一倍左右)。
過去我們曾經(jīng)遇到過網(wǎng)絡(luò)中斷集中到CPU0上的問題,在大流量下可能導(dǎo)致網(wǎng)絡(luò)延時增加甚至丟包。為了保證網(wǎng)絡(luò)處理能力,我們從Node0上劃出了8顆邏輯CPU用來專門處理網(wǎng)絡(luò)中斷和宿主機系統(tǒng)上的任務(wù),例如鏡像解壓這類高CPU的工作,這8顆邏輯CPU不運行任何容器的Workload。
在容器調(diào)度方面,我們的容器CPU分配盡量不跨Node,實踐證明跨Node訪問內(nèi)存對應(yīng)用性能的影響比較大。在一些計算密集型的場景下,容器分配在Node內(nèi)部會提升30%以上的吞吐量。按Node的分配方案也存在一定的弊端:會導(dǎo)致CPU的碎片增加,為了更高效地利用CPU資源。在實際系統(tǒng)中,我們會根據(jù)服務(wù)畫像的信息,分配一些對CPU不敏感的服務(wù)容器跨Node使用CPU資源。
上圖是一個真實的服務(wù)在CPU分配優(yōu)化前后,響應(yīng)延時的TP指標(biāo)線對比。可以看到TP999線下降了一個數(shù)量級,所有的指標(biāo)都更加平穩(wěn)。
性能優(yōu)化:文件系統(tǒng)針對文件系統(tǒng)的性能優(yōu)化,第一步是選型,根據(jù)統(tǒng)計到的應(yīng)用讀寫特征,我們選擇了Ext4文件系統(tǒng)(超過85%的文件讀寫是對小于1M文件的操作)。
Ext4文件系統(tǒng)有三種日志模式:
Journal:寫數(shù)據(jù)前等待Metadata和數(shù)據(jù)的日志落盤。
Ordered:只記錄Metadata的日志,寫Metadata日志前確保數(shù)據(jù)已經(jīng)落盤。
Writeback:僅記錄Metadata日志,不保證數(shù)據(jù)比Metadata先落盤。
我們選擇了Writeback模式(默認(rèn)是oderded),它在幾種掛載模式中速度最快,缺點是:發(fā)生故障時數(shù)據(jù)不好恢復(fù)。我們大部分容器處于無狀態(tài),故障時在別的機器上再拉起一臺即可。因此我們在性能和穩(wěn)定性中,選擇了性能。容器內(nèi)部給應(yīng)用提供可選的基于內(nèi)存的文件系統(tǒng)tmpfs,可以提升有大量臨時文件讀寫的服務(wù)性能。
如上圖所示,在美團內(nèi)部創(chuàng)建一個虛擬機至少經(jīng)歷三步,平均時間超過300秒。使用鏡像創(chuàng)建容器平均時間23秒。容器的靈活、快速得到了顯著的體現(xiàn)。
容器擴容23秒的平均時間包含了各個部分的優(yōu)化,如擴容鏈路優(yōu)化、鏡像分發(fā)優(yōu)化、初始化和業(yè)務(wù)拉起優(yōu)化等等。接下來,本文主要介紹一下我們做的鏡像分發(fā)和解壓相關(guān)的優(yōu)化。
上圖是美團容器鏡像管理的總體架構(gòu),其特點如下:
存在多個Site。
支持跨Site的鏡像同步,根據(jù)鏡像的標(biāo)簽確定是否需要跨Site同步。
每個Site有鏡像備份。
每個Site內(nèi)部有實現(xiàn)鏡像分發(fā)的P2P網(wǎng)絡(luò)。
鏡像分發(fā)是影響容器擴容時長的一個重要環(huán)節(jié)。
跨Site同步:保證服務(wù)器總能從就近的鏡像倉庫拉取到擴容用的鏡像,減少拉取時間,降低跨Site帶寬消耗。
基礎(chǔ)鏡像預(yù)分發(fā):美團的基礎(chǔ)鏡像是構(gòu)建業(yè)務(wù)鏡像的公共鏡像,通常有幾百兆的大小。業(yè)務(wù)鏡像層是業(yè)務(wù)的應(yīng)用代碼,通常比基礎(chǔ)鏡像小很多。在容器擴容的時候如果基礎(chǔ)鏡像已經(jīng)在本地,就只需要拉取業(yè)務(wù)鏡像的部分,可以明顯的加快擴容速度。為達(dá)到這樣的效果,我們會把基礎(chǔ)鏡像事先分發(fā)到所有的服務(wù)器上。
P2P鏡像分發(fā):基礎(chǔ)鏡像預(yù)分發(fā)在有些場景會導(dǎo)致上千個服務(wù)器同時從鏡像倉庫拉取鏡像,對鏡像倉庫服務(wù)和帶寬帶來很大的壓力。因此我們開發(fā)了鏡像P2P分發(fā)的功能,服務(wù)器不僅能從鏡像倉庫中拉取鏡像,還能從其他服務(wù)器上獲取鏡像的分片。
從上圖可以看出,隨著分發(fā)服務(wù)器數(shù)目的增加,原有分發(fā)時間也快速增加,而P2P鏡像分發(fā)時間基本上保持穩(wěn)定。
Docker的鏡像拉取是一個并行下載,串行解壓的過程,為了提升解壓的速度,我們美團也做了一些優(yōu)化工作。
對于單個層的解壓,我們使用并行解壓算法替換Docker默認(rèn)的串行解壓算法,實現(xiàn)上是使用pgzip替換gzip。
Docker的鏡像具有分層結(jié)構(gòu),對鏡像層的合并是一個“解壓一層合并一層,再解壓一層,再合并一層”的串行操作。實際上只有合并是需要串行的,解壓可以并行起來。我們把多層的解壓改成并行,解壓出的數(shù)據(jù)先放在臨時存儲空間,最后根據(jù)層之間的依賴進(jìn)行串行合并。前面的改動(并行解壓所有的層到臨時空間)導(dǎo)致磁盤IO的次數(shù)增加了近一倍,也會導(dǎo)致解壓過程不夠快。于是,我們使用基于內(nèi)存的Ramdisk來存儲解壓出來的臨時文件,減輕了額外文件寫帶來的開銷。做了上面這些工作以后,我們又發(fā)現(xiàn),容器的分層也會影響下載加解壓的時間。上圖是我們簡單測試的結(jié)果:無論對于怎么分層的鏡像并行解壓,都能大幅提升解壓時間,對于層數(shù)多的鏡像提升更加明顯。
推廣推廣容器的第一步是能說出容器的優(yōu)勢,我們認(rèn)為容器有如下優(yōu)勢:
輕量級:容器小、快,能夠?qū)崿F(xiàn)秒級啟動。
應(yīng)用分發(fā):容器使用鏡像分發(fā),開發(fā)測試容器和部署容器配置完全一致。
彈性:可以根據(jù)CPU、內(nèi)存等資源使用或者QPS、延時等業(yè)務(wù)指標(biāo)快速擴容容器,提升服務(wù)能力。
這三個特性的組合,可以給業(yè)務(wù)帶來更大的靈活度和更低的計算成本。
因為容器平臺本身是一個技術(shù)產(chǎn)品,它的客戶是各個業(yè)務(wù)的RD團隊,因此我們需要考慮下面一些因素:
產(chǎn)品優(yōu)勢:推廣容器平臺從某種程度上講,自身是一個ToB的業(yè)務(wù),首先要有好的產(chǎn)品,它相對于以前的解決方案(虛擬機)存在很多優(yōu)勢。
和已有系統(tǒng)打通:這個產(chǎn)品要能和客戶現(xiàn)有的系統(tǒng)很好的進(jìn)行集成,而不是讓客戶推翻所有的系統(tǒng)重新再來。
原生應(yīng)用的開發(fā)平臺、工具:這個產(chǎn)品要易于使用,要有配合工作的工具鏈。
虛擬機到容器的平滑遷移:最好能提供從原有方案到新產(chǎn)品的遷移方案,并且容易實施。
與應(yīng)用RD緊密配合:要提供良好的客戶支持,(即使有些問題不是這個產(chǎn)品導(dǎo)致的也要積極幫忙解決)。
資源傾斜:從戰(zhàn)略層面支持顛覆性新技術(shù):資源上向容器平臺傾斜,沒有足夠的理由,盡量不給配置虛擬機資源。
總結(jié)Docker容器加Kubernetes編排是當(dāng)前容器云的主流實踐之一,美團容器集群管理平臺HULK也采用了這樣的方案。本文主要分享了美團在容器技術(shù)上做的一些探索和實踐。內(nèi)容主要涵蓋美團容器云在Linux Kernel、Docker和Kubernetes層面做的一些優(yōu)化工作,以及美團內(nèi)部推動容器化進(jìn)程的一些思考,歡迎大家跟我們交流、探討。
作者簡介歐陽堅,2006年畢業(yè)于清華大學(xué)計算機系,擁有12年數(shù)據(jù)中心開發(fā)管理經(jīng)驗。曾任VMware中國Staff Engineer,無雙科技CTO,中科睿光首席架構(gòu)師。現(xiàn)任美團基礎(chǔ)架構(gòu)部/容器研發(fā)中心技術(shù)總監(jiān),負(fù)責(zé)美團容器化的相關(guān)工作。
招聘信息美團點評基礎(chǔ)架構(gòu)團隊誠招Java高級、資深技術(shù)專家,Base北京、上海。我們是集團致力于研發(fā)公司級、業(yè)界領(lǐng)先基礎(chǔ)架構(gòu)組件的核心團隊,涵蓋分布式監(jiān)控、服務(wù)治理、高性能通信、消息中間件、基礎(chǔ)存儲、容器化、集群調(diào)度等技術(shù)領(lǐng)域。歡迎有興趣的同學(xué)投送簡歷到 liuxing14@meituan.com。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/27546.html
摘要:夏華夏先生以美團發(fā)展的五個階段為演講主線,分別介紹每個階段中所遇到的問題及解決方案。在夏華夏先生的分享之后,第五屆開幕式圓滿結(jié)束,他山之石可以攻玉是的宗旨,我們希望通過優(yōu)秀案例的分享傳播更多的經(jīng)驗。 showImg(https://segmentfault.com/img/bVHgPK?w=629&h=418);(第五屆TOP100summit開幕式現(xiàn)場) 12月09日-12日,由ms...
摘要:夏華夏先生以美團發(fā)展的五個階段為演講主線,分別介紹每個階段中所遇到的問題及解決方案。在夏華夏先生的分享之后,第五屆開幕式圓滿結(jié)束,他山之石可以攻玉是的宗旨,我們希望通過優(yōu)秀案例的分享傳播更多的經(jīng)驗。 showImg(https://segmentfault.com/img/bVHgPK?w=629&h=418);(第五屆TOP100summit開幕式現(xiàn)場) 12月09日-12日,由ms...
摘要:淺談秒殺系統(tǒng)架構(gòu)設(shè)計后端掘金秒殺是電子商務(wù)網(wǎng)站常見的一種營銷手段。這兩個項目白話網(wǎng)站架構(gòu)演進(jìn)后端掘金這是白話系列的文章。 淺談秒殺系統(tǒng)架構(gòu)設(shè)計 - 后端 - 掘金秒殺是電子商務(wù)網(wǎng)站常見的一種營銷手段。 不要整個系統(tǒng)宕機。 即使系統(tǒng)故障,也不要將錯誤數(shù)據(jù)展示出來。 盡量保持公平公正。 實現(xiàn)效果 秒殺開始前,搶購按鈕為活動未開始。 秒殺開始時,搶購按鈕可以點擊下單。 秒殺結(jié)束后,按鈕按鈕變...
摘要:而調(diào)用后端服務(wù)就應(yīng)用了的高級特分布式配置管理平臺后端掘金輕量的分布式配置管理平臺。關(guān)于網(wǎng)絡(luò)深度解讀后端掘金什么是網(wǎng)絡(luò)呢總的來說,網(wǎng)絡(luò)中的容器們可以相互通信,網(wǎng)絡(luò)外的又訪問不了這些容器。 在 Java 路上,我看過的一些書、源碼和框架(持續(xù)更新) - 后端 - 掘金簡書 占小狼轉(zhuǎn)載請注明原創(chuàng)出處,謝謝!如果讀完覺得有收獲的話,歡迎點贊加關(guān)注 物有本末,事有終始,知所先后,則近道矣 ......
摘要:正在走遠(yuǎn),新年之初,小數(shù)精選過去一年閱讀量居高的技術(shù)干貨,從容器到微服務(wù)云原生,匯集成篇精華集錦,充分反映了這一年的技術(shù)熱點走向。此文值得收藏,方便隨時搜索和查看。,小數(shù)將繼續(xù)陪伴大家,為朋友們奉獻(xiàn)更有逼格的技術(shù)內(nèi)容。 2017正在走遠(yuǎn),新年之初,小數(shù)精選過去一年閱讀量居高的技術(shù)干貨,從容器、K8S 到微服務(wù)、云原生、Service Mesh,匯集成52篇精華集錦,充分反映了這一年的技...
閱讀 2716·2021-09-24 09:47
閱讀 4366·2021-08-27 13:10
閱讀 2981·2019-08-30 15:44
閱讀 1281·2019-08-29 12:56
閱讀 2594·2019-08-28 18:07
閱讀 2614·2019-08-26 14:05
閱讀 2553·2019-08-26 13:41
閱讀 1265·2019-08-26 13:33