才云科技CTO鄧德源：不可不知的谷歌集群管理經驗

callmewhy 發布于2019-07-01 16:30 / 1329人閱讀

摘要：曾為美國谷歌集群管理組核心成員，主要參與開發集群管理系統。保證系統升級軟硬件錯誤等均能及時被發現并處理，谷歌集群能小時不間斷工作。關于集群管理經驗，首先一定要專注于持久的運維自動化工具開發。

本文僅用于學習和交流目的，不得用于商業目的。非商業轉載請注明作譯者、出處，并保留本文的原始鏈接：http://www.ituring.com.cn/art...

訪談嘉賓：

鄧德源， 才云科技CTO。2011年畢業于電子科技大學機械與自動化專業，2013年獲美國頂級計算機學府Carnegie Mellon University大學電子與計算機工程學位，專修操作系統、分布式計算等方向。參與亞太機器人大賽，代表電子科大獲全國第一名，后代表中國隊在埃及獲金牌。

曾為美國谷歌集群管理組核心成員，主要參與開發集群管理系統。負責管理運維工程師提交的生產環境變更請求，自動化風險分析，自動化生產環境準備工作，以及各種集群容錯處理。保證系統升級、軟硬件錯誤等均能及時被發現并處理，谷歌集群能24/7小時不間斷工作。作為核心成員參加了開發基于容器集群的谷歌開源項目（Kubernetes），一度成為全球前十的貢獻者和貢獻最高的華人。

訪談內容：

鄧老師目前在才云科技主要負責什么工作？

我目前在才云科技主要負責公司內部的團隊管理，技術管理以及部分對外工作。

團隊管理方面主要包括搭建技術團隊、組織架構、制度規范的建立、技術文化等，技術管理方面主要是組建中層團隊、制定技術路線、建立培訓機制。對外方面，更多的是了解企業市場、了解客戶需求、反思產品。最終，希望我們的產品能為客戶提供更多的價值。

卡耐基梅隆學習和Google工作的經歷跟國內學習和工作相比，最大的差別有哪些？

卡耐基梅隆大學更加側重原理和實踐的結合，其中實踐性內容的質量非常高，比如基礎類的操作系統、編譯原理等課程。設置的每一門課程都會把原理解析得非常透徹，學生需要根據原理親自編寫屬于自己的操作系統或者編譯器。一些較為前沿的類別，比如云計算、人工智能，教學內容大多都與業界接軌，并且學生有更多的自主性，可以根據某次課程的某個論點進行學術研究、參與相關開源項目的研發等。無論學生準備走學術界還是工業界，學校都可以提供非常多的資源。因此，卡耐基梅隆大學培養的學生大多數都能很快地融入到之后的科研或者工作當中。

大家可能認為卡耐基梅隆大學的學習壓力非常大，但是根據我個人的體會來看，并非如此。學校的整體氛圍實際上是比較寬松的，更重要的還是靠學生的自主意識。

至于工作方面，因為是直接從國外回國創業的，我不敢妄加評論國內的工作環境。

可以分享下在Google工作時，Google內部容器管理的經驗和教訓嗎？

Google內部容器管理平臺已經非常成熟，但也是一個持續演進的過程，其最早來源于Google Search的業務運維平臺。由三四個人將搜索引擎中的錯誤處理等邏輯拿出來作為Borg的最初原型，使其他系統也能享受集群服務。由于類似的歷史原因，Google的容器管理平臺和內部的業務結合非常緊密。

關于集群管理經驗，首先一定要專注于持久的運維自動化工具開發。提到Google的容器管理平臺，自然會想到Borg。Borg的主要功能是容器的調度和編排，以及容器的生命周期管理。用戶不用考慮程序運行在哪里，只需要根據描述文件通知系統運行程序即可。Borg自己會考慮如何分配任務，任務錯誤重啟等眾多功能。Borg與外部的系統結合緊密，例如存儲系統、安全系統，開發者可以認為程序運行的所有環境都已經被準備好，只需要關心業務邏輯就好。盡管有如此多的功能，Borg依然只是平臺的一部分，Google再此之上做了非常多的工具，如機器生命周期管理系統“亞里士多德”，會持續監測物理機信息并與Borg交互；集群生命周期管理系統“PCMS”，負責接收集群變更事件（如機器批量下線），與Borg交互確保業務穩定運行。

其次，監控是整個平臺穩定運行的核心。Borg出現不久，也就是2003年，其監控系統Borgmon就已經開始重點開發。Borgmon是基于黑盒的拉模型系統，側重效率，但也意味著它需要業務應用的配合。監控需要著重于延遲、流量、錯誤率等指標，針對不同的業務設計不同的粒度。例如，對于提供年SLA 99.9%的業務，需要將監控粒度放得更大。報警層面，Google更加看重“有效報警”，因此開發了Alertmanager來幫助用戶管理所有的報警?？偠灾?，Google的容器管理將監控提升到了“一等公民”的地位。

另外，優先級和資源分配是容器管理的一個重點。幾乎所有用戶都不太明白如何去分配優先權（我的應用需要什么樣的優先級），以及請求多少資源（我的應用需要多少 CPU、內存）。在優先級問題上，Google有一套優先級配額相關的管理，確保高優先級沒有被濫用；資源問題上，有類似Resource Weather的系統提供整體的資源分布和使用情況，也有類似Flex、autopilot的系統幫助用戶決定、調整資源使用。優先級和資源分配的合理管理，極大提高了系統資源利用率。有人曾經在Borg上做過實驗，利用Borg調度 1 萬個Hello world任務，總共用時大概2分半。但是，由于分配的優先級很低，大多數時候并沒有10000個任務在運行，而是被其他應用搶占（最高優先級200，最低優先級0）。

最后，健壯性測試非常有必要。健壯性測試包括容器管理平臺和運行在平臺之上的應用。物理設備會出錯，例如物理硬盤；設備也會有定期維護，例如Borg使用的機器平均大約每個月重啟一次。一個中等規模的Borg集群大約有 1w 臺機器，因此可以想象，集群的“動蕩“是比較頻繁的。但是即便在SLA中明確告訴了用戶可能出現的問題，用戶也會依賴于平臺。因此，Google會進行DiRT(disaster recovery test)，在集群中注入較大規模的錯誤，幫助用戶提高應用的健壯性。

Google運行應用程序和服務的方式是怎樣的？

Google的代碼都存放在同一個龐大的代碼庫中，開發完代碼后，開發者需要發一個Change List，進行code review。這類似于Github里的Pull Request。在Google，code review必須嚴格執行，否則代碼將無法提交（除了特殊情況）。

大致的流程如下。

1）開發者寫好代碼后，先在本地進行編譯。由于Google的代碼庫非常龐大，編譯代碼所需的依賴可能就需要很長時間。Google內部使用一個叫作Blaze的編譯和測試工具，Blaze可以運行在Borg容器集群上，通過優化的依賴分析，高級的緩存機制和并行的構建方法，快速地對代碼進行構建。而Google也將這一工具進行了開源：http://www.bazel.io/

2）構建完成后，我們需要在本地進行單元測試，而單元測試的運行測試由叫作Forge的內部系統完成，而 Forge也是通過運行在Borg容器集群上實現快速并行測試的。

3）當本地的代碼更新以Change List的形式發送出來以后，Google內部的人員通過Critique的UI進行代碼審查，同時Change List會觸發一個叫作TAP（tap anything protocol）的系統對該Change List進行單元測試，并保證這個局部的代碼變化不會影響Google其他的應用和代碼。TAP具有智能的依賴監測功能，會在Google內部浩瀚的代碼庫和產品線中檢測到哪些部分可能會被影響到。

4）當代碼通過測試和審核提交后，我們會等到下一個Release cycle進行發布。如前所述，Google內部的應用都是以容器的形式運行在Borg上，因此發布的第一步工作就是通過一個叫作Rapid的系統，對代碼進行容器打包成鏡像（內部稱為MPM格式，通過一個叫Midas的系統管理），再通過Rapid發布工具進行發布。

5）在新版本的發布過程中，我們深度采用了不同形式的灰度測試機制。如果是平臺軟件更新（如容器集群平臺，服務器基礎鏡像升級），按照一定的速度逐漸更新到不同的數據中心，如第一天發布到一個數據中心，第二天發布到五個數據中心，以此類推，并在過程中不斷進行A/B測試和對比。如果是面向用戶的產品（如廣告、購物等），則會采用基于用戶流量分流的灰度發布法，先選擇5%的用戶流量使用新的版本，并自動收集metrics來進行新舊版本的比對。

6）當應用成功運行后，應用可以通過BNS訪問其他服務。BNS類似于DNS，不同之處在于，BNS將IP和端口信息都封裝在了BNS路徑中。除了用戶自身應用，Google的技術設施服務也可以通過BNS來訪問，例如 Chubby, Colossus。

Kubernetes會商業化么？如何從Docker那里，搶到足夠的用戶群？

目前來看，Kubernetes一定是會商業化的。不過，個人認為Kubernetes的大規模使用還有兩個前提：一是相關生態更加成熟，二是尋找更多企業場景。不同于Borg，Kubernetes需要滿足的場景更多；相反，Borg是專門為Google定制的，無需考慮復雜的場景，也無需構建開放的生態。因此，Kubernetes現在極力做到插件化、模塊化，以賦予企業更多定制化的能力，而Kubernetes本身僅提供核心功能。作為一款明星開源軟件，Kubernetes的重點一定是社區和生態的建設，一旦成功，商業化也是順其自然的事情，我們還需要給予它一定的耐心。

Docker項目一直在進行重構，拆分組件進行模塊化，目標是標準化容器運行時等技術，構建可插拔的組件。在這一點上，其目標與Kubernetes是相同的，即構建完善的容器生態圈，并不存在沖突。但兩者所關注的層面并不完全相同，前者在于容器本身，后者在于大規模容器集群的管理。但隨著Docker公司的贏利壓力，Docker公司開始逐漸在Docker（項目）中加入容器編排的功能。在這方面，Docker起步較晚，使用方式更加貼近開發者，適合于小規模環境；而Kubernetes更為完善，適合于場景復雜、較大規模的環境，也不存在直接的競爭。如果一定要說如何獲得更多的用戶，個人認為Kubernetes需要降低使用和運維的門檻，去更加貼近用戶。最后，即使兩者有趨同的情況，也不一定是敵對關系，放在他們面前的，是如何轉變企業的思維，如何權衡與虛擬化的關系等問題。

您認為國內企業，尤其是傳統企業應該做出哪些轉變，去擁抱國外先進的事物？

傳統企業的轉變，最重要的還是觀念上的改變?？上驳氖牵覀儸F在接觸到了很多的傳統企業，他們對新技術都是開放的態度。但轉變不是一朝一夕的事情，企業要學會從邊緣到核心的方法，從小做起，慢慢滲透到企業內部。另外，行業的推動也是極其重要的，只靠一家的力量是很難完成轉變的，企業需要聯合同行伙伴建立行業聯盟，學習行業標桿以及其他行業的經驗，一起推動轉型。最后，轉型離不開人，離不開新型人才，僅僅靠內部人力也很難完成轉變。傳統企業要積極尋找并引進人才，很多問題便可迎刃而解。不過，企業一定要注意可能的問題，比如新老融合的問題，這更需要企業決策者對轉型的決心和毅力。

——更多訪談

更多精彩，加入圖靈訪談微信！

云服務器 GPU云服務器鄧德源管理經驗谷歌服務器集群運維管理經驗

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/32539.html

才云科技CTO鄧德源：不可不知的谷歌集群管理經驗

摘要：曾為美國谷歌集群管理組核心成員，主要參與開發集群管理系統。保證系統升級軟硬件錯誤等均能及時被發現并處理，谷歌集群能小時不間斷工作。關于集群管理經驗，首先一定要專注于持久的運維自動化工具開發。本文僅用于學習和交流目的，不得用于商業目的。非商業轉載請注明作譯者、出處，并保留本文的原始鏈接：http://www.ituring.com.cn/art... 訪談嘉賓：鄧德源，才云科技CT...

Pines_Cheng 2019-06-28 15:36 評論0 收藏0
Kubernetes 1.7：從完善容器編排功能到落地商業應用新跨越！

摘要：新功能版本增加了安全性有狀態的應用程序和可擴展性等功能。網絡已從升級到新的組。 ?根據 Kubernetes Google Group 產品經理 Aperna Sinha 和 Kubernetes Mirantis 項目經理 Ihor Dvoretskyi 的說法，Kubernetes 1.7 中的 API aggregation 功能使用戶可以在運行時添加自定義的 API 服務器，與...

big_cat 2019-07-01 16:35 評論0 收藏0

發表評論

登陸后可評論

0條評論

callmewhy

男|高級講師

我要關注我要私信

TA的文章

普通大一學生的自我反思

閱讀 2343·2021-11-15 11:38
買了云主機還要買什么-我需要云存儲為什么要先買云主機？

閱讀 3550·2021-09-22 15:16
Hostdare：CN2 GIA線路9折優惠，KVM架構，洛杉磯Cera機房，年付$44.99起

閱讀 1191·2021-09-10 11:11
C++多態底層刨析(虛函數指針，虛函數表)

閱讀 3161·2021-09-10 10:51
Web 性能優化：21種優化CSS和加快網站速度的方法

閱讀 2936·2019-08-30 15:56
用鍵盤8個鍵演奏一首蒲公英的約定送給996的自己或者一首月亮代表我的心給七夕的她

閱讀 2782·2019-08-30 15:44
小番茄的CSS筆記匯總（二）

閱讀 3190·2019-08-28 18:28
每日 30 秒 ? 判斷是否為頁面底部

閱讀 3527·2019-08-26 13:36

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

才云科技CTO鄧德源：不可不知的谷歌集群管理經驗

相關文章