摘要:打錯一個字母癱瘓半個互聯網是怎樣的感受在今天亞馬遜披露了這起事故背后的原因后,很多人心里都會有一個疑問這個倒霉的程序員會被開除嗎關于這一點,雖然主頁君肯定沒法做出準確的判斷,但還是愿意給出我們的猜測不會。
2月28號,號稱「亞馬遜AWS最穩定」的云存儲服務S3出現“超高錯誤率”的宕機事件。
接著,半個互聯網都跟著癱瘓了。
一個字母造成的血案
AWS 最近給出了確切的解釋:一名程序員在調試系統的時候,運行了一條原本打算刪除少量服務器的腳本,結果輸錯了一個字母,導致大量服務器被刪。為了修復這個錯誤,亞馬遜不得不重啟整個系統(在此之前已經幾年都沒有重啟過了),最終導致了震驚全球的Amazon S3宕機4個小時事件。
我想這名程序猿當時的表情應該是這樣的
曾經有人計算過,AWS每宕機一分鐘,對亞馬遜造成的損失是$66,240美元...而這還不包括那些依靠AWS來運行自家服務的公司們的損失。所以這次接近4小時的宕機造成多大的損失,只能請大家自行腦補了。
程序員的世界就是這樣的不近人情,一丁點兒錯誤就足以釀成大錯。在這次“一個字母造成的血案”之前,剛剛發生了Gitlab程序猿用錯一條命令誤刪了整個數據庫的悲劇。再久一點以前,歐洲宇航局的的火星探測器因為傳感器失靈了僅僅一秒鐘,就造成探測器在火星表面墜毀,歷時數年的探測計劃功虧一簣。
所以,當你身邊的程序員為了一點點小事較真的時候,你一定要理解:魔鬼都藏在細節里啊!
當S3宕機時,你才明白AWS多么強大
幾年前,Google.com曾有一次宕機了一個小時。在那一個小時的時間里,整個互聯網的流量減少了40%。當時有人感慨:Google一家就是半個互聯網。如今,“半壁江山”的江湖地位似乎要歸屬于亞馬遜了。
AWS是云計算領域全球的領導者,而S3又是AWS歷史最久的服務,可以說是AWS的基石。很多AWS提供的其他服務都依賴于S3云存儲,比如EC2,Lambda 和 EBS 等,所以這次宕機影響巨大。據最近的統計顯示,全球共有148213個網站和121761個獨立域名在使用AWS S3服務。
就拿這次事故來說,很多人一覺起來發現手機里的歌聽不了,電影看不了,股票不能交易,App也沒法下載,就連家里的智能電器都紛紛罷工(主頁君家里的電子門鎖都失靈了?。┰朴嬎懵犐先ルx生活很遠,其實離我們很近。
這次S3宕機影響到無數家公司和服務
在這里羅列了幾個著名的:
Apple App Store & icloud
Airbnb
Expedia
Netflix
Quora
Amazon Echo
Amazon.com
Nasdaq
就連AWS自己用來公布服務狀態的 AWS Dashboard 都受到了影響,在一段時間內只能通過Twitter賬戶來發布更新狀態。這次S3宕機事件的影響范圍之廣,可見一斑。
“打錯一個字母癱瘓半個互聯網”是怎樣的感受?
在今天亞馬遜披露了這起事故背后的原因后,很多人心里都會有一個疑問:
這個倒霉的程序員會被開除嗎?
關于這一點,雖然主頁君肯定沒法做出準確的判斷,但還是愿意給出我們的猜測:不會。
首先,這名程序猿打錯命令有沒有責任?肯定有。但是,在處理高度可靠的云服務時,每一次操作都應該按照嚴格的程序,每一個命令都要經過足夠的審核。除非這名程序員在操作過程中因為偷懶省略了一些必要的步驟,否則,這次事故更多是系統的責任,因為系統沒有足夠的機制來防止錯誤的發生。人,都是會犯錯的,只有機器不會。
其次,oncall(值班)的程序員一邊操作著影響巨大的的系統,一邊還需要爭分奪秒的解決問題,肩上的壓力之大難以想象。雖然這次事故確實是由于一個打錯的字母造成的,但如果事故發生后,作為云服務領航者的亞馬遜不是勇敢的承擔這筆學費,而是把鍋甩給某一個程序員身上,那就太讓人寒心了。
我甚至敢斷言:如果亞馬遜真的做出這樣的決定,那么他們在日后的招聘過程中會遇到很大的困難——每個程序員都會三思:我會不會成為下一個背鍋的人?
當然,如果這哥們(也可能是姐們)
真的因此被解雇了,想想看——我打錯了一個字母,就癱瘓了半個互聯網?
這牛逼也夠吹一輩子了!
最后,主頁君想說:程序員這行真的不容易,做云服務的尤其如此,大家且行且珍惜。對受到這次事故影響而心驚膽戰了好幾幾天的程序員們說一句:加油,你們挺住!
歡迎加入本站公開興趣群軟件開發技術群
興趣范圍包括:Java,C/C++,Python,PHP,Ruby,shell等各種語言開發經驗交流,各種框架使用,外包項目機會,學習、培訓、跳槽等交流
QQ群:26931708
Hadoop源代碼研究群
興趣范圍包括:Hadoop源代碼解讀,改進,優化,分布式系統場景定制,與Hadoop有關的各種開源項目,總之就是玩轉Hadoop
QQ群:288410967?
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4197.html
前言 學習中有一種方式就是錯題匯總,在學習代碼,日常書寫代碼中對于遇到報錯,也要匯總,這樣可以在以后編碼過程中避免或解決這些問題?! ∫?、報錯結構 首先對于報錯分為:錯誤類型、錯誤位置、錯誤描述、錯誤規則和問題數量。 如上圖: 報錯類型為編譯錯誤; 錯誤位置在D:\myel\src\views\admin\AdminView.vue中的第四行第2個字符;(報錯位置不一定每次都是準確的...
我們所說的大帶寬服務器是一個泛指,通常針對國外服務器來說,10000M、10000M的帶寬就是大帶寬服務器,RAksmart可提供T級全球帶寬,功能選擇。大帶寬服務器擁有以下優勢:1、傳輸速度快:大帶寬服務器最主要就是可以有效實現雙向數據同步傳輸,提升了數據的傳輸速度同時,也保證了穩定性。而且降低了丟包率,同樣服務器也是安全性能很強的,可以滿足不同商家的業務需要,適用范圍也是更廣泛一些。2、穩定性...
摘要:例如同樣的兩份內容,一個使用加速,一個沒有,那么加速過后的網站就會獲得更高的曝光度。當今社會,經濟發展迅速,許多網站在互聯網中涌現,其中包括文字、圖片、視頻、音頻等等類型,豐富著我們的的生活,事實上,我們訪問的網站能夠大量出現的原因,就是因為cdn加速。在還沒cnd加速之前,我們看一些視頻的時候,會出現延遲、卡頓甚至會出現網絡崩潰等現象,嚴重影響我們上網體驗,有了cdn加速,它能優化網站網速...
近年來,越來越多的用戶選擇高防服務器,就是為了防止網站受到攻擊,沒有高防服務器可能會被攻擊,導致網癱瘓。從而失去一些客戶,這些損失都是不可估量的。所以,高防服務器是很重要的。那么我們一般受到的網絡攻擊有哪些呢?1、CC攻擊:CC攻擊的原理就是攻擊者控制某些主機不停地發大量數據包給對方服務器造成服務器資源耗盡,一直到宕機崩潰。CC就是模擬多個用戶不停地進行訪問那些需要大量數據操作的頁面,造成服務器資...
閱讀 2872·2021-11-11 10:58
閱讀 1926·2021-10-11 10:59
閱讀 3497·2019-08-29 16:23
閱讀 2343·2019-08-29 11:11
閱讀 2791·2019-08-28 17:59
閱讀 3841·2019-08-27 10:56
閱讀 2077·2019-08-23 18:37
閱讀 3119·2019-08-23 16:53