摘要:讓自愈自動化主動機架維護原文作者翻譯時序預關閉這一步主要是保證目前池子中認為是空閑的主機在主機級別關閉或批量操作期間交換多個主機時不會重新被加入到生產環境。
讓facebook自愈:自動化主動機架維護 - 2
Making Facebook self-healing: Automating proactive rack maintenance
原文:https://code.fb.com/productio...
作者: Romain Komorn
翻譯: 時序
Pre-disable(預關閉): 這一步主要是保證目前池子中認為是空閑的主機在主機級別關閉或批量操作期間交換多個主機時不會重新被加入到生產環境。
Host-level disable:(主機級關閉):在一些場景,由于在預關閉時已經被批量關閉了所以這步沒有操作。在其他場景這一步會成為繼承FBAR的的主機級關閉邏輯的并行操作。
Post-disable(關閉后):這一步主要是用來確認預關閉和主機級關閉成功完成。它也支持作者去檢查主機級關閉步驟的結果來決定是否要忽略特定的失敗類型如果它們仍在預期的閾值之下。
下面動畫展示了這個過程:
啟用流程與關閉流程一樣: 預啟用,主機級啟動,啟用后。使用自動化,我們可以安全的在機架或多個機架級執行常規維護,并可以最小化地影響其他的工程團隊和使用Facebook的人。
與人交互:當自動化不可行(或失?。?/b>盡管我們的目標是自動化所有要在我們基礎設施上進行的維護工作,有些時候還是需要人工接入來保證維護可以安全進行。
起飛檢查失敗或沒有自動化在一些場景,定時任務可能可能會影響很大一批服務器,起飛檢查會就拒絕自動化執行維護。我們的自動化故意設置得比較保守,并在可能產生大范圍影響的時候使用手動控制。在另外的情況,由于可靠性的原因或服務處于降級狀態,此時自動化還沒有被實現或者被暫時關閉,我們希望防止自動化變更。
失敗自動化盡管我們調用Aggregate Maintenance Handlers時有很高的成功率,還是有一些情況會出問題。當故障發生時,我們的維護進程會通知服務的負責人自動化失敗了。當他們人工確認主機已經被關閉了,維護動作才允許繼續進行。
混合自動化與手工工作為了幫助協調自動與手動的進行,我們開發了Dapper,一個被很多團隊(如,數據中心團隊,技術經理,基礎設施工程師,產品工程師)使用通過提供影響描述并用于調度維護工作的工具。
Dapper的維護執行工作流如下:
我們從早期的自動化單主機修復到機架和多機架學到了一些經驗。
關閉邏輯的串行執行一次關閉一個主機有兩個不好的負面影響。第一是在維護期間可能在某個時間點引起容量不夠,導致維護工作需要被停止直到人工介入:
更差的是,當服務的交換邏輯是在同機架上重用主機時,我們可能會意外的將主機重新上線到生產環境,或最佳情況,進入了無限循環:
相對于一次單個執行,并行進行交換主機可以防止串行方式的一些問題,但會引入其他問題。最常見的問題是并行調用單機邏輯可能在獨立操作尋找替換主機時造成條件競爭,但聚合結果可能會造成服務容量不足:
Dapper和Aggregate Maintenance Handlers提供的框架已經從物理維護工作,擴展到包括軟件發布/內核/BIOS/OS升級時關閉和啟用主機。
工作在Dapper的產品工程師對進一步擴大自動化和開發工具幫助Facebook工程團隊降低運維工作的成本,幫助他們解決更大更有挑戰性的問題充滿激情。
了解更多 FBAR和Aggregate Maintenance Handlers的內容,可以看這個演講。
本文來自微信公眾號「麥芽面包,id「darkjune_think」轉載請注明。
交流Email: zhukunrong@yeah.net
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/73902.html
摘要:一個在內存中保存靜態索引的緩存機器可以接受從負載均衡池中摘除時長時間的網絡中斷。處理一次重啟需要主動替換一個沒有被同一次維護影響的服務器。主機可以被從負載均衡池中移除,數據可以存儲在磁盤上,服務器也可以在重啟后快速追平復制進度。 Making Facebook self-healing: Automating proactive rack maintenance 原文:https://...
摘要:年可以說是軟件定義數據中心的一年,大量自動化和人工智能研發力量致力于打造下一代可擴展的靈活的數據中心。年,致力在軟件定義數據中心占據一席之地,并將目標瞄準了在年之前實現軟件和支持收入億美元。公有云沒有扼殺數據中心,盡管有些人預測這會在2018年發生。不僅數據中心還在,而且服務器、存儲和網絡等數據中心基礎設施的全球支出正呈現蓬勃增長的態勢。2018年可以說是軟件定義數據中心的一年,大量自動化和...
閱讀 1334·2021-09-01 11:40
閱讀 3940·2021-08-05 10:03
閱讀 973·2019-08-30 15:54
閱讀 2815·2019-08-29 12:53
閱讀 3178·2019-08-29 12:23
閱讀 939·2019-08-26 13:45
閱讀 2276·2019-08-26 10:41
閱讀 2534·2019-08-23 16:44