摘要:冗余系統可以被視為一種實現無單點故障安裝的最低要求。如果這個冗余系統示例中的系統在物理上是分開的,則對一個系統的任何操作都應該對另一個系統沒有影響。冗余系統的基本原則已被破壞,系統的復雜性呈指數級增長。
如今,人們在降低數據中心風險方面所遇到的最大障礙是:
缺乏知識(一般地點和特定地點);
缺乏分享這些知識的流程;
缺乏針對特定地點的經驗;
不了解風險;
對待人員和學習的態度不佳。
如果一個數據中心設施的設計和運營很復雜,并且工作人員沒有得到很好的培訓,那么將會面臨很高的風險。
設計的復雜性
在考慮數據中心設計的復雜性之前,有必要考慮采用無單點故障(SPOF)的彈性系統,而根據定義,單點故障(SPOF)是指系統中一旦失效,就會讓整個系統無法運作的部件,換句話說,單點故障就會產生整體故障。這些可能是組件故障或不正確的人為干預,例如在不了解系統如何反應的情況下進行切換。
2N冗余系統可以被視為一種實現無單點故障(SPOF)安裝的最低要求。為簡單起見,假設數據中心的2N系統包括A和B兩個相同的電氣和機械系統。故障樹分析(FTA)將突出顯示導致故障的事件組合。然而,在故障樹分析(FTA)中模擬人為錯誤是非常困難的。用于模擬人為錯誤的數據將始終是主觀的,并且存在許多變量。
如果這個2N冗余系統示例中的系統在物理上是分開的,則對一個系統的任何操作都應該對另一個系統沒有影響。但是,引入增強功能并不少見,它采用簡單的2N冗余系統,并添加其他組件,例如災難恢復鏈路和連接兩個系統的公共存儲容器。
在大型設計中,這成為一種自動控制系統(例如SCADA、BMS),而不是簡單的機械聯鎖。 2N冗余系統的基本原則已被破壞,系統的復雜性呈指數級增長。運營團隊所需的技能也是如此。
對設計進行審查仍然表明已經實現了2N冗余設計,然而,由此產生的復雜性和可操作性的挑戰破壞了高可用性設計的基本要求。
研究表明,導致失敗的特定事件序列通常是無法預料的,并且直到它發生之后才會知道會產生什么后果。換句話說,這些事件序列在人們知道之前是未知的。因此,它不會成為故障樹分析(FTA)的一部分。
奧地利物理學家Ludwig Von Boltzmann開發了一種熵方程,該方程已應用于統計學,特別是缺失信息方面。在這個理論中,設置了一個盒子網格,例如4×2或5×4的網格 ,以及一個放在盒子里的硬幣。該理論允許用戶確定問題的數量,以確定在該定義的網格上放置硬幣的哪個框中。如果采用系統組件替換盒子,以及硬幣的未知故障事件,人們可以考慮系統可用性如何受到復雜性的影響??梢钥闯?,較少發生的未知故障事件,系統可以失敗的方式的數量減少。因此,增加人們對系統的詳細知識和發現未知事件減少系統失敗的組合,從而降低風險。
人為因素
研究表明,任何具有人機界面的系統最終都會因漏洞而失敗。漏洞是數據中心設施中可能導致故障的任何可能的弱點。數據中心的漏洞可能與基礎設施或設施運營有關?;A設施涉及設備和系統,特別是:
機械和電氣可靠性。
設施的設計、冗余和拓撲。
這些行動涉及人為因素,其中包括個人和管理層面的人為錯誤。它涉及:
運營團隊的應變能力。
團隊對漏洞的反應情況。
系統越復雜,人為因素就越脆弱,運營設施所需的培訓和學習就越多。學習不僅適用于個人,也適用于組織。組織學習的特點是成熟度和流程(在下圖中顯示為累積經驗),例如圍繞數據中心結構和資源、維護、變更管理、文檔管理、調試和可操作性,以及可維護性。
個人學習是知識、經驗和態度的函數(在圖表上顯示為經驗的深度)。開發組織和個人學習的環境有助于降低故障率,并為操作人員提供有效減少能源浪費的專業知識。
通用學習曲線應用于數據中心
重要的是要理解,由于失敗和經驗之間的關系遵循指數曲線,因此永遠不能實現零失敗。擁有良好知識和經驗豐富的數據中心設施操作人員仍然容易自滿,并且會遇到一系列先前未知事件的失敗。
結論
通過提供可以改善組織和個人知識的學習環境,降低數據中心風險。雖然成熟的操作人員具有可以降低故障率的經驗,但如果在沒有經過充分培訓的情況下實施,則過于復雜的設計仍然會發生故障。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/5197.html
摘要:導讀近期靈雀云技術專家邵明岐翻譯了所著的一書的部分內容,可以說是對科普與觀察的上佳素材。移動應用程序可以無縫訪問同一個數據庫,以檢索過去的結果和排行榜數據。這些是統計信息,例如執行持續時間和面向客戶的指標,而不是可用磁盤空間或使用率。 導讀:近期靈雀云技術專家邵明岐翻譯了Mike Roberts & John Chapin所著的《What is Serverless》一書的部分內容,可...
摘要:現在的風控系統是啥樣的對風控的描述比較空泛,只是給出邏輯概念。至于如何去做一套完善的風控系統,這個領域已經有大量的投入和專家,可以去參考借鑒。應該是互聯網內風控玩的最早最成熟的公司,筆者也有幸成為其國內的第一批開發,學習到很多。 彈指間,一起創業已有大半年。這大半年間,累與成果并存,痛并快樂著,這自不用多提,應該是這一行從業者的普遍感受了?,F在每每反思以往,總結不足,其中一條就是技術團...
摘要:阿里巴巴集團安全部今年在直播管控中的特色在于大量采用人工智能和深度學習等技術,配合優化后的高性能多媒體計算集群,大幅度降低人工審核成本的同時,提升了對內容風險的防控能力。 阿里巴巴直播內容風險防控中的AI力量 直播作為近來新興的互動形態和今年阿里巴巴雙十一的一大亮點,其內容風險監控是一個全新的課題,技術的挑戰非常大,管控難點主要包括業界缺乏成熟方案和標準、主播行為、直播內容不可控、峰值...
摘要:與云計算提供商密切合作以確保數據存儲安全方法滿足其要求也很重要,而最佳實踐方法可以幫助企業實現最安全的云存儲。 建立云存儲框架和云存儲安全標準至關重要。以下是五種云存儲最佳實踐,希望能給從業者一點參考。 showImg(https://segmentfault.com/img/bVblBQH?w=600&h=333); 評估企業的云計算架構 安全云存儲要求組織識別連接到云平臺的所有設備...
閱讀 2855·2021-09-27 13:35
閱讀 629·2021-09-23 11:22
閱讀 2897·2019-08-30 15:54
閱讀 1616·2019-08-29 16:27
閱讀 2473·2019-08-29 15:05
閱讀 2357·2019-08-23 18:11
閱讀 3528·2019-08-23 16:32
閱讀 2946·2019-08-23 14:56