QingCloud核心技術揭秘：自動化運維與機器學習

時飛發布于2019-06-28 10:50 / 1531人閱讀

摘要：作為全球架構師峰會坐看云起時專題出品人，創始人接受了記者的采訪，就標志性的招牌技術自動化運維與機器學習進行了闡釋。請介紹一下你們的機器人，它們是做在哪一層的，它們身上的職責有哪些黃允松非常樂于談這樣的話題。

作為全球架構師峰會“坐看云起時”專題出品人，QingCloud創始人&CEO Richard Huang接受了InfoQ記者的采訪，就QingCloud標志性的招牌技術“自動化運維與機器學習”進行了闡釋。大波技術干貨來襲。

以下是采訪實錄。

大家好，我是InfoQ的主持人，現在我在全球架構師峰會ArchSummit的現場。今天很高興能邀請到青云的聯合創始人兼CEO黃允松來接受我們的采訪。今天我們聊聊你們在做的機器人的事情。請介紹一下你們的機器人，它們是做在哪一層的，它們身上的職責有哪些？

黃允松：非常樂于談這樣的話題。我在很多場合都講過，做Cloud Computing真正最后落腳點在于去Replace人，而不是說僅僅是為了將物理資源虛擬化。恰恰相反，我認為云計算跟虛擬化實際上是不劃等號的，你完全可以使用物理的機器去做一套云的System，這是沒有問題的，只要你做得足夠的好，那都是一樣的。

所以我們在機器人層面做得最多的事情，基本上計算存儲、網絡、安全，每個層面都涵蓋到。現在這個階段cover最多的還是計算、存儲和網絡三塊，因為安全相對偏簡單——安全是L2、L3跟L4，而我們目前的L4還沒上線，也就說只有L2跟L3，所以它會比較簡單，因為它就是一些規則，所以復雜度并不高。我可以舉幾個例子。比如說計算層面，有好多很重要的事情，而第一步要做的事情是什么？我們稱它為resource placement policy，資源安置策略。簡單來講，比如說有一個用戶發一個指令，他要一百臺虛擬的Server，這就是典型的偏計算的活——Server一般是CPU跟Memory組成的，當然磁盤也有，但不是特別重要。那這個時候，你要做的最多的事情就是去判斷它應該安置在哪里。

最簡單的安置策略是什么呢？均勻化的法則。這是一點問題都沒有的，不外乎就是我旗下有一千臺物理服務器，下面就看誰身上的資源比較空閑，我就往誰身上放就好，這是非常非常簡單，也非常有效率的。我相信基本我們能找到的大部分的系統都是這么安放的。

但這個里面其實是有問題的。問題在哪呢？就是物理設備身上已經在運行的資源，它不一定是在做決策的那個時刻正在吃資源，所以有可能會發生的情況就是，你根據Workload所做出的Placement的決策導致了一些機器壓力會比較大。當然如果說有錢人，這個事情是不怕的，他們在平均在每一個物理機上只跑八個VM，他們的Placement的策略是極其簡單的，就是均勻化分布法則，沒有其他的，基本上不太考慮未來很可能產生的大的起伏。

這種做法有沒有問題呢？其實沒有問題，為什么？因為它的冗余度非常高，資源的實際的占用率偏低，所以他就不用擔心突然之間，比如說什么量上來了之后，會產生一些壞的影響。

但是這種做法的話，在過去是沒問題的，現在問題非常大：這會使服務商根本活不去。因為硬件的成本實際上不是一個小錢。因為這畢竟是一場生意，因為這不是一個totally for free的東西，就像你去打開一個網站看新聞一樣。所以如果一個云計算的一個服務商，它完全看不到有利潤的未來的話，這個服務商的服務是不可持續的，這是最大的不安全和不穩定和不可靠性。因為服務商如果關門，實際上這會使的消費者的系統會非常的艱難，因為你要遷移，要搬家，非常艱難。所以我自己覺得，在每個物理機身上，可能密度要增大，比如說增大到20個或者30個，取決于你的硬件的配置。高配的時候，可能密度會更高，低配的時候，密度要降低，但總之來說，我們密度應該適當的要有一點增長。

在這種模式下，實際上你最需要做的事情就是如何去判斷。判斷的因素非常多，比如說當前的workload運行狀態。另外一個，歷史狀態。這個是很有意思的，所有的計算機在運行過程中，不管是物理的還是虛擬的設備，他們在運行過程中，實際上是有大量的歷史的數據的，每時每刻每分每秒的數據我們都應該把它記錄下來，予以分析。這樣我才能夠非常清晰的知道，每一個設備，不管是物理的還是虛擬的，它的曲線圖是怎樣的，這個是我們要抓住在手上的第二個歷史的因素。第三個因素在于credit，信任值，就像我們人，每個人在銀行，我相信每個人在銀行基本上都會多多少少有一些credit，銀行根據每個人在銀行的歷史記錄，他會有一些對這個人有些判斷。

說個小題外話就是，互聯網金融為什么它有魅力？有魅力的地方在于它通過技術手段獲得了很多數據，于是他就對消費者，或者是小商家能夠迅速的做出判斷，我覺得你可不可信任。這是非常大的一個買賣，而這個買賣不僅僅適用于我們有血有肉的人類，它同樣適用于那些冷冰冰的機器的世界，這是我們要考慮的第三個點，就是所謂的device credit。因為實際上，并不是每臺設備都非常靠譜的。長期跟硬件打交道的人應該非常清楚，硬件有兩個時間點是最容易出問題的。第一個時間點是剛上線的時候，比如說像我們上線一個項目，一般的設備規模差不多在一百臺到兩百臺的規模，規模不是很大，而我們平均一般比如說一到兩個月會上線一套設備，保持這樣的一個頻率。你上線一票設備，假設是一百臺或兩百臺，這里面不可能是百分之百都OK的，它一定會有那么幾臺有問題。比如我最近剛剛在北京的亦莊，我們上線了一大票設備，然后壞了，上線以后，開箱即損，幾臺呢？四臺都是壞的，每個壞的這個表現還不一樣，但是它是壞的，這就是現實。另外一個會有故障的時間，一般是在三年左右開始出現，尤其是硬盤。運行期間相對來說比較安定，但是也不一定，比如CPU都可能會出錯，尤其是高壓力的情況之下。我們在魯谷中心，就是西五環的一號區里邊，我們已經三臺設備的CPU出過問題，所以你會看得到，在運行過程中，實際上每一臺設備，就跟我們人一樣，它實際上是有不同的表現的，這個就是我們要抓住的第三個值。其實還是對歷史的分析，但是這種分析，它就相對來說要要求要比較實時的能體現這些東西。

所有這些數據我們拿到之后，我們首先要做的事情是怎么存放它，接下來的事情是怎么分析它。把這兩步做好之后，于是我們就可以大致得出一個對這個系統的一個判斷，這個是非常關鍵的。對于計算這一頭，就是所謂的resource placement policy的這個判斷是極其重要的，這是第一步。第二步，里面有個非常關鍵的，就是當資源已經up and running，它已經被分配出去，它可不可能出問題？太可能了，在我們QingCloud里面，用戶如果有資源正在跑的，然后他比如說跑在A location，它真的是永遠跑在A location嗎？NO，不是這樣子的，因為硬件，還有各種網絡的格局，隨時可能會有改變，我們一定要有技術的手段，讓這些可能出現的risk，或者disaster，它可以被預測，就是所謂的prediction。這就跟我們看那個中央電視臺的這個天氣預報是一個概念。預測非常關鍵，而且一定要求它是越來越精確。我相信各位，大家看天氣預報的時候肯定會有兩種心態，昨天說今天下暴雨了，今天沒下，那個鬼天氣預報太差勁了，這是一種表現，因為它沒有預報準。還有一種說昨天說今天要36度高溫，果然這么熱，好熱好熱，就覺得那個天氣預報好準，對不對。實際上預測這件事情對于IT這個行業來說，對于IT 運維這個行業來說非常重要，你怎么去形容它都不會過分。

預測是一個極其艱難的過程，而且它這個分析跟我前面講的那一步的分析還有點區別。前面我講那一步，實際上大部分的分析是靜態分析，就是所謂的static，這種靜態分析講求的地方在于追溯你的歷史，然后我對你做一個未來的行為的一個大概的預判。但Prediction不同，Prediction權重更高的是Real-time Data Stream，Data Stream是非常關鍵的，那這個地方就是所謂的我們要引入一種超級快速的，而且那個overhead要偏低的這種實時的數據分析技術，所以你會看到在這個層面上來說的話，我們要把這些事情做好，實際上要花大力氣，這也是我們目前正在重點做的事情。我們目前的Prediction準確率還不是特別理想，所以最近這幾個月我們花了很大的力氣在增強RD的力量這個上面，我們也增了很多兄弟在這個上面做。

另外還有一件事情，就是你看前面講的都是為了防止你出問題，但是肯定不會百分之百的能防得住，一定會有些時候會出問題的，下面的一件事情是出了問題怎么辦？How to action，怎么樣去針對那些已經正在發生，或者是已經剛剛發生，Just moment ago，發生的那個災難，怎么去把這個事情做好。這個事情更多的實際上是叫動作的觸發，很多的trigger。這些trigger在我們早期的版本，就是在2012年和2013年的時候，尤其是2012年做的版本，我們的基本上的邏輯非常簡單，實際上就是把我腦袋里面那些邏輯寫成Code，然后再配上一些觸發的條件，最后它就會形成一種可重復使用的操作規則，或者是操作指南。發生這樣的情況，你要Take這樣的Action，非常簡單的一個邏輯。但實際上我們規模，因為現在QingCloud規模相當大了，我們服務的客戶群極寬，而且現在有很多美國客人也是在，直接在用我們在中國的部署，所以我們顯然這個壓力上來之后，災難的概率也會變高，這個是很好理解的，因為你基數變得很大了。

這個時候就會看到，就是原來這種單純的就是以我已有的知識結構所形成的這樣的一些trigger的庫，那么實際上是不足夠的，所以這個里面要加入什么東西了？new action creation的過程。我們要能夠授權我們的robots system，能夠去在具備一些條件的情況之下，去自適應和創建一些新的規則集。這是我們正在做的這個，就是在這個機器學習范疇之內的第三件事情，就是非常關鍵的。

這三件事情基本上都是跟——第一件事情可能跟計算的關系會比較重，后面兩件是比較帶有通用性的——計算和存儲最相關的。其實計算跟存儲之間是比較緊的，因為一般說來我們講一臺設備，CPU、Memory跟Disk它是少不了的，我想基本上我講的這三件事情，基本上能夠涵蓋他們這個雙方。

網絡就不太一樣了，網絡會稍微特殊一點點。前段時間大家有個很大的爭論，我覺得很有意思，就是大家在微博上跟林源有一些探討，行業里面很多兄弟都加入了，比如像盛科的蘇總，張總，在討論到底什么叫SDN。我覺得這個事情就好像大家在討論以前一句老話，叫一千個人心中會有多少個哈姆雷特的那個意思。我倒不是說就有一千種SDN，但是SDN這個東西實際上就看你從哪個角度去看，你可以叫它SDN，也可以不叫它SDN，無所謂，就好像我經常講，就是虛擬化這個東西跟云到底什么關系，我要說的絕情絕意一點，我就可以明確的講它們沒關系，就比如說IBM收購了Softlayer，它到底是不是云計算？沒錯，它是一個物理資源出租的業務，但是你不能說它不是Cloud的模式，因為它的這個業務模式，還有用戶的體驗，它都是Cloud那個范，只不過它偏物理設備的Delivery。那你不能說它采用的是物理資源，所以你說它就不是Cloud business，我覺得這是不對的。

同樣道理，我們講網絡層面也是這樣的，實際上現在我覺得我們更應該強調的事情是說IT這個工具，或者說IT的思維，對于通訊行業、傳統的電信行業它的影響是有多大。我們使整個網絡可編程化，就是可以被Program，然后使得轉發和控制能夠得以合理的分離，使得一旦網絡出現問題，或者網絡出現抖動之后，我們能夠快速的Recover。像這些東西，實際上我覺得它就可以稱之為SDN這個范了。而你不應該去強調說，我一定要基于某一種協議，之后它才能叫做SDN，或者說我一定要基于某一種特定的規范之后，它才能叫SDN，我覺得我這個是需要稍微聲明一下的。當然這個每個人看法可能不太一樣，但我覺得這無外乎就是一個廣義和狹義的話題。

那回到QingCloud我們在網絡層面上的一些實踐，我覺得首先要做的事情就是什么呢？就是很多人，反正我個人是這個看法，我記得盛科的張總他們對此也是高度一致的看法，就是轉發和控制必須分離。你如果不分離，我們對于盒子有很明確的依賴。而你看看，我相信你們做Cloud相關的這些各種報道，還有研究，我相信你們現在應該有很深的體驗。就是我們做Cloud跟傳統IT有一個很大的區別，就在于我們不可以把我們的系統的可靠性依賴于某一些特定的硬件。我們在傳統的運維概念里面對于硬件的可靠度要求是很明確的，這就是IBM公司能成功的非常核心的原因。為什么IBM能成功？你只有買了IBM的東西，你的系統才能不壞，所以你的core banking，核心銀行業務，大家就買IBM的mainframe或者是小型機之類的，對不對。因為只有IBM能夠有這個能耐保證你的東西不壞。但是實際上我們看現在這個時候，首先一個IBM這種做法有一點點過時了，對于尤其是新業務，所以我們做Cloud實際上有沒有發現，我們實際上苦心孤意在做的事情是，讓我們各種各樣的應用，不管是互聯網應用，Web的、游戲的、Mobile的，或者是偏傳統的業務，各種比如說什么辦公系統、ERP、CRM，甚至包括電子郵件系統，那么這些東西的話，我們用云的方式Run的時候，我們實際上心里面有個預期，就是你這東西它能不能不壞。但什么叫能不能不壞呢？實際上設備一定會壞，設備只要一上架一定會壞。消費者心里面的潛在的預期是什么呢？如果設備壞的話，我的系統能不能不壞？

實際上這個地方落到根本上，說的就是我們的系統在運行過程中，它不應該對某一些特定的設備有期待。簡單來講，就是任何的失敗，任何的一個exception、error、failure還有disaster，它都應該是什么呢？In planing，都是在計劃中的，這樣才對。所以這件事情，我們在計算和存儲的身上，我們已經表現的非常明顯，你看看七牛的兄弟們做存儲，毫無疑問，他一定要做冗余。當然也可以通過新的技術，比如糾刪碼這種方式能夠提高容量的復用率。但是無論你怎么做，最終你肯定還是有一些冗余的成分在里邊的。我們將文件碎片化、打散分散存放，也都是為了這個目的，就是簡單來講，我不依賴于你這張硬盤，我也不依賴于你這一個服務器，我也不依賴于你這一堆服務器。網絡也是一樣的，為什么轉發和控制、分離那么重要？原因就在這，我們一定要讓設備僅僅充當簡單的角色，讓它可以快速被取代，這是非常關鍵的。所以控制這個過程是極其重要的。SDN的語境范圍里面，大家把這個東西稱之為controller，控制器，這個真是簡單明了。但是因為我們QingCloud System里面，因為我們整個系統都是一個稱之為一個robots community，所以在我們的開發里面沒有用controller這個單詞，我們用的是一個Bot這樣的一個單詞，其實概念是一樣的。

我們的做法其實非常的簡單，我們主要是把它任務分成兩步，第一步就是二層的功能，另外一步就是三層的功能。二層的功能偏簡單，實際二層的功能基本上就是幾件事情，就是組網及網絡隔離，就是干這兩件事情。網絡隔離就是所謂的私有網絡，就是VPC的范疇的一個東西。組網呢，就是有兩種組網，你自己的局域網的組網，以及局域網和局域網之間的組網。然后三層的功能是最復雜的，三層功能涵蓋了很多。最簡單的一個就是說，我怎么樣確保外部的流量能夠到達那一步，就是所謂的EIP的功能，elastic IP address，這個地方涉及到的實際上是一個轉換的過程。這個轉換的過程大伙都知道，這個東西就是做流量轉發。做流量轉發有好多種技術，傳統的技術NAT，新的技術，就看你用什么協議了，那每一個東西都是有自己的做法的。我們兩者都有。

為什么兩者都有？這是我經常講的，我們做事情千萬不可極端，就是在這個事情上沒有某一個技術，它是絕對的好，也沒有一個技術是絕對的差的，我們一定要將技術混合起來用，以確保你的系統是最優化的，這個是非常非常重要的。我經常在外邊，你也知道我這個人特別喜歡跟人講技術，我經常在外面講的時候說，大家的視野千萬不要被某一種概念牽著走了。我記得前段時間，我忘了是一個什么會議，就前兩個月，他們請我過去講一個小話題，叫“云計算中的那些坑”，其中我就講了大概好幾個坑，其中有一個我自己都覺得蠻重要的，我把它放到前面講的。就是說，概念重不重要？非常重要，像你們做媒體也是這樣的，要推進新的概念，然后去promote這些東西在市場上，這個很重要。但是我們是做實施的工程師，我們做工程師的人一定要記住，我們要學習這些新的理念跟概念，但一定要辯證的去看，要權衡它。所以在SDN這里邊，比如EIP，我們兩者皆有的原因是在于，對于Rack內的通訊，顯然傳統的方式更加有效。而對于跨長線路，長距離的通訊，顯然新的、類似于OpenFlow這樣子的做法更加有效。這個大家可以通過測試，通過長期的觀察，就能夠很明確的表明這一點。你在Rack內，TOR（Top of Rack），用這種東西的話，你用新的模式做實際上得不償失，所以這兩者我們都需要去做它。我們做這個network bot，就是controller，這兩方的東西都要關照，那么這是一個。

另外一件事情再比如說，我們提供的三層路由器，路由器里面所涵蓋的一些功能，我舉個簡單例子，因為混合云顯然是一個，不說多的，我覺得10年、20年的時間應該是主流，那么企業用戶，因為我們主要服務于企業用戶，尤其是現在越來越高的比例是帶有一些傳統屬性的企業用戶，當他們開始擁抱這種新IT模式，Cloud Based IT的時候，他們實際上對于自己既有的legacy有很高的期待，就是你的新系統，你可以用一種云的方式，你的新系統應該跟我的老系統能夠無縫的怎樣怎樣。那這個地方實際上就存在一個問題，就是我們在云端所交付出來的virtual router，那個東西能不能夠無縫的去兼容、支持所有市面上現在這些傳統的設備，供應商的設備，不管是華為，華三，還是瑞杰，Cisco，Juniper，無所謂是誰的，能不能做得到，這個地方是非常重要的一件事情。這就是為什么我們做出來的三層路由器實際上看上去非常傳統，比如說我們支持的隧道協議就是GRE，為什么是GRE，大家都知道，因為它最老牌，最權威。再比如說，當然我們也會支持新的規范，比如說類似于像VxLan這種，能夠幫助用戶去走這種新的協議，當然我們也會做。再比如說像DHCP地址的分發，那么這些東西，其實都是，我們就原原本本的，就照著傳統的路由器，它三層設備具有這樣的能力，我們去做它。
所有這些東西我們在做的時候一定要把這個就是轉發能力，放在哪呢？放在盒子身上，而且控制能力放在一個virtual的設備里面，說白了就是一個虛擬的控制器，就是一個虛擬的Linux或者是一個Process。這個里面內嵌的一些規則，我們可以是去跑一個虛擬機來做，我們也可以是去跑一個Container來做，這都是很容易做得到的。那么兩者，我們目前都有，針對不同的型號來做到它。

所以說你會看到以前，你會看到，就是我們以前，我們講hypervisor，那么QingCloud顯然是百分之百，fully KVM based。但現在顯然不是這樣子的，為什么？因為我們還是有一部分Container相關的東西在里面的，為什么會有這樣的變化呢？還是那句話，一定要尋求變化，就是有些東西，它可以百分之百用在這樣的一個層面上。但是另外一些層面，他可能就不一定適用，那這是在網絡層面的控制，網絡層面的機器的做法。

網絡層面，我們目前有一個很大的缺失，就是所謂的L2 learning的過程。因為我們現在走的設備是偏傳統的方式，那么在Rack內如果發現了設備的故障的時候，它差不多有一到兩分鐘的L2 learning的時間，這會使大家非常的沮喪，為什么？因為實際上一兩分鐘的時間還是有點長的，雖然它是一個自動發生的過程，因為也是一個設備的一個特性，但實際上有點長，我們目前正在想辦法解決這個問題。
解決的方案非常簡單，我們會做自己的硬件。這邊我可以給你透露一下，我們自己設計的硬件已經設計完了，并且發給了廣東的一家工廠，我星期天就會去廣州，跟他們談很多細節。為什么要做這種設備？實際上這個，在我們這個行業里面有個專門的詞叫融合型設備，融合型設備就是說這個設備它既不是服務器，也不是存儲柜，也不是網絡交換機，而是一個合成體。當然這個東西，你說是不是就是原來的刀片機的刀箱？NO，不是那個樣子的，它不是一個刀片機的概念的東西，他是一個全新的一個OCP Based的設計。在這個里面，你會看到很清晰的一個東西，就是說我們要想在傳統的路徑上面去做，但是同時呢又要解決一些傳統的路徑所遺留下來的問題，我們必須要去改變一點點。

通過這種方式，我們可以使的轉發這樣子的能力會變得更加的，即便是設備出問題的時候，他也不會波擊太多，就是包括那種比較短暫的學習周期。其實所謂的學習，就是refresh的過程，然后也會變得更加的短。甚至是說，雖然內部還是在做這樣的refresh，但是用戶感受不到。然后從controller角度來說，我們目前走的路徑是全虛擬化，全虛擬化的好處就是第一個是，這個就是Scale可以非常的大。因為從調度的角度來說，有些時候出問題是很正常的，這是網絡層面上。另外一個，我覺得還有一個很重要，就是整體來看，我們越來越多的看到一個東西，就是所謂的，就是這個，因為我們現在不是因為全局化做得比較多，像哈爾濱、北京一、北京二，然后廣東，就是我們現在分區分類比較多，上海很快就會有上線，香港就是下個月，8月份，今年已經在香港那邊的前站工作都已經做完了，美國是11月末。所以都很快，就會變得很大。這個地方我們就是面臨一個很大的問題，就是全局調度的問題。全局調度，尤其是跨越這種超級長的廣域網線路，實際上我們面臨很大的壓力，這個確實是一個實際的情況。分區部署是一個解決方案。但是分區部署之后，會使的我們的成本變高，然后資源復用率變低，所以我們目前在這一方面，就是說廣域網的環形網絡建設及調度，這一方面我們在花很大的力氣在做這方面的事情，這個它就涉及到更進一步的所謂SDN的話題。

那么這邊，我覺得有一件事情，大家至少能夠非常確認的，這邊我們是totally OpenFlow based。我們目前在看的比較多，就是純OpenFlow的跨廣域網的這個Traffic調度過程，包括我們現在IP地址也是自己購買的IP地址。為什么要這么做？就是因為要做到這個跨廣域網的assignment。當然IP比較特殊，它是有國家特性的，一般給中國大陸用的IP就只能在中國境內用，但至少我們能夠做到北京跟廣東之間的IP可以飄動，是這樣子的，所以你會看在整個的這個其實歸根結底，我們今天談的這個主題，歸根結底就是怎么樣去做Operation。Operation這件事情呢，我認為是從IT本身來說是最主要的工作，這是最最重要的工作。但是Operation這件事情，正是因為它的重要性，所以我們應該讓它消失。我說這句話，它是不矛盾的，就是我們要讓它消失，消失的原因就是因為它太重要了。因為它太重要，所以這個活不能交給人去手動的去做，當然我知道這個過程非常的漫長。我們在青云里面，也沒有說做到百分之百的沒有人工的干涉和參與，但是我們至少說已經做到90%以上的工作沒有人工的參與和干涉了，就絕大部分都不會有。所以我們在我們的范疇，我們是沒有值班的概念的，我們就是設備損壞也是一個正常的邏輯，我們在哪一個數據中心，都不是百分之百的設備在線上跑，因為總會有壞的設備的。所以從這個角度來說，我們其實最終的，用一個詞來講，我們雖然我經常講P2P的robots community management system，但實際上，其實說白了，其實說的簡單一點，實際上是一個什么東西呢？是一個自動化運維的過程。

我總結一下，就是我們要大規模引入的東西，實際上就是什么呢？就是所謂的機器學習的過程，就是海量的數據的捕獲和處理，以及相應的計算機的自我學習和規則集的更新的過程，這是一個非常長期的行為，我相信各位都對搜索引擎這個東西是毫不陌生的，搜索引擎就是非常典范的這樣的一個東西，我們就以百度為例。百度它從網頁上去爬別人的數據，然后放到自己的索引庫里，這是最傳統的做法。接下來他做百度知道，百度是人肉的一個過程，是一個“有人有問題，然后有人去回答問題”，百度在做一個Match的一個過程，是一個人肉的過程，然后半自動化，然后你會看。所有這些我們人，對于知識的掌握過程中的努力，實際上就是一個所謂machine learning的過程，就是讓機器不斷的掌握一些我們的規則，實際上我們現在要做得事情，我們對于Cloud Computing，對于IT這個行業來說，我覺得我們要掌握的事情就是什么呢？就是我們要把這些，我們過去用在人身上，為人提供服務的機器學習的東西我們要下沉，下沉到為誰提供服務呢？為設備提供服務，就是這樣子的，這件事情我覺得并不是更加的艱難，而是更加簡單，只是大伙可能不一定認為這個東西有那么重要而已。為什么？因為看起來說做運維，招一幫兄弟去做其實也蠻OK的。對，是蠻OK的，這個事情可以做，但實際上Long Term來看是不行的。如果大伙自己的這個運維的設備規模越來越大，就是像我們這樣子增長非常迅猛，我們的增長速度是極快的，就是你招人都來不及。這個時候你會發現，你唯一的救世主就是machine learning，非常精確，非常高效，所以我覺得這個，我想應該就是非常非常關鍵。對于每一個從事Cloud行業的兄弟們來說，大伙都要往這個方向努力。

當然我們有沒有一天，我們能夠把自己的系統稱之為人工智能，這取決于我們的能力了，當然現在這個階段最多也就叫個機器智能，我希望有一天，不管是我，或者其他的這個團隊，不管是誰，不管Amazon、Google，我希望有人能夠真正做出一套百分之百、完全人工智能化的、不需要人類參與的純機器的世界。當然我希望那個能夠做出來這個東西的人是我。當然我覺得，我也毫不懷疑會有別的Team，別的團隊也會在這個方向上做出非常卓越的努力。

我還有一個問題，就說你們現在這個Robots，它的更新是一個什么頻率，包括，萬一你們怎么去防止機械人的更新出現邏輯錯誤，萬一出現錯誤怎么處理？

黃允松：很好的問題。我們目前的話，刷新的頻率是兩周一次的迭代，就是我們的Code Base是兩周一次迭代，而且這個刷新的過程也是自動的，我們會有一整套的這個DevOps的過程，就是非常典型的，然后十萬次無錯測試。完成之后，自動的打包，Push到這個線上，它是個自動的過程。

怎么防止錯誤，這是非常關鍵的，這就是為什么我們目前沒有百分之百自動化的一個非常核心的原因，就是我們核心系統，就是Global Service，就是Core System的話，我們現在每次做更新的東西都是靠人工做。但是Core的東西它更新不是特別的頻繁，一般是一些細枝末節的東西；另外一個，還是沒有辦法百分之百防止出錯，這就是要回到我們前面講的那個，我們這個談話最前面我講到的就是，出了錯之后，怎么樣去Take Action。這個是非常關鍵的。實際上這里面其實就是一件事情，就是我把我們QingCloud做的這套系統，我稱之為叫這個firmware，叫固件，叫Cloud firmware，就是有點像刷系統一樣那個系統。我對于我們這套固件的要求就是什么呢？這套系統它可以被Stop，也可以被pause，也可以被refresh掉。但是在這個時候，在做這些事情的時候，上層的這個用戶系統是必須是要在up and running，并且不受影響的。你可以理解成我做了一個Sand box，一個沙盒一樣概念的東西，它可以保證說我下面的東西如果出了錯的話，上層的業務系統，就是用戶系統，它是還是在Up and running的，它是完全隔開的兩個東西，這一點也是為什么我要設計自己的硬件的核心原因。

在我設計的硬件里面，CPU不是只有一種CPU，在我的系統里有三種CPU，非常復雜，就是有三種完全不同架構的CPU，這是非常非常有意思的一個東西。為什么這么做？實際上我要把我的Cloud firmware，因為我認為，我們做的QingCloud這個東西是一個operating system，它就是一個操作系統，只不過它是一個分布式的操作系統，分散在很多設備上。所以我對于它這個東西的定義，對于操作系統這個東西的定義，就是QingCloud這樣一個分布式操作系統，它一定在它內部結構發生變化的時候，一定要不能影響上層的建筑，就是客戶的那些workload，application system，那些東西不能被影響到，所以這一點是非常關鍵的。而好消息是，這個東西我們在13年，這個對外開放服務的時候，我們的系統就是這么來Run的。

所以簡單來講，你這個問題的答案就是我們就是三個步驟，三件事情去解決它，第一個就是Global，就全局分散的core service，我們現在在做refresh、upgrade的時候，我們一般是靠手動的方式在控制，還沒有百分之百的自動化；第二個就是說我們的系統在設計的時候一定要確保，我們QingCloud這一層，這個Cloud firmware這一層，固件這一層，跟上層系統之間沒有任何關系，完全隔離，純沙盒模式。最后一個就是說我們這個出了錯之后，要快速的Rebalance，那么這個是非常關鍵的一個救急法寶。

InfoQ:十分感謝黃允松接受我們的采訪。

原文鏈接： https://community.qingcloud.com/topic/11

GPU云服務器云服務器機器學習核心技術機器學習技術的核心機器學習的技術核心機器學習核心

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/25163.html

QingCloud核心技術揭秘：自動化運維與機器學習

摘要：作為全球架構師峰會坐看云起時專題出品人，創始人接受了記者的采訪，就標志性的招牌技術自動化運維與機器學習進行了闡釋。請介紹一下你們的機器人，它們是做在哪一層的，它們身上的職責有哪些黃允松非常樂于談這樣的話題。作為全球架構師峰會坐看云起時專題出品人，QingCloud創始人&CEO Richard Huang接受了InfoQ記者的采訪，就QingCloud標志性的招牌技術自動化運維與機器學習進...

張利勇 2019-04-25 17:40 評論0 收藏0
QingCloud Insight 2016：詮釋云計算的未來圖景

摘要：但事實證明，傳統行業對云計算技術只是謹慎，并非保守。一旦真正接受云計算技術后，他們的轉型步伐甚至超越了互聯網企業。近兩年，云計算已經在金融能源零售地產政府等傳統行業中落地，并完成了云化的深入改革。　　7月28日，QingCloud Insight 2016在北京國際飯店舉行，向來自全國各地超過1500名企業用戶、生態合作伙伴、開發者、技術愛好者以及媒體展示了青云 QingCloud 云計算領...

qingshanli1988 2019-04-29 18:26 評論0 收藏0

發表評論

登陸后可評論

0條評論

時飛

男|高級講師

我要關注我要私信

TA的文章

云主機如何發布網頁-怎么把網頁游戲掛到云主機上去？

閱讀 829·2021-09-22 15:18
【程序人生】做了低薪運營6年，妹紙靠什么轉行拿下 20W 年薪？

閱讀 1181·2021-09-09 09:33
無縫輪播圖

閱讀 2758·2019-08-30 10:56
內部元素橫向&&垂直居中的15種常見寫法

閱讀 1184·2019-08-29 16:30
【轉】css樣式自動換行（強制換行）

閱讀 1488·2019-08-29 13:02
nodejs request module里的json參數的一個坑

閱讀 1458·2019-08-26 13:55
render函數生成圖片彈窗實例(自己項目實際代碼）

閱讀 1643·2019-08-26 13:41
在使用es6語法class的時候，babel到底做了什么？

閱讀 1941·2019-08-26 11:56

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

QingCloud核心技術揭秘：自動化運維與機器學習

相關文章