此文已由作者王盼授權(quán)網(wǎng)易云社區(qū)發(fā)布。
歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗~
現(xiàn)狀
計算節(jié)點發(fā)生磁盤損壞等數(shù)據(jù)無法恢復(fù)的異常時,節(jié)點上的云主機(jī)系統(tǒng)盤無法恢復(fù),導(dǎo)致云主機(jī)只能被清理重建
計算節(jié)點宕機(jī)但磁盤數(shù)據(jù)可用時,重啟即可恢復(fù)所有云主機(jī)的運行
計算節(jié)點多次宕機(jī)(或一段時間內(nèi)頻繁宕機(jī)),則需要遷移所有云主機(jī)或者直接清理重建,云硬盤需要遷移到其他cinder-volume存儲服務(wù)節(jié)點
一般來說重建過程比較耗時,并且云主機(jī)數(shù)據(jù)盤數(shù)據(jù)會全部丟失;另外采用本地file鏡像啟動的云主機(jī)離線或者在線遷移比較耗時并大類占用物理機(jī)硬盤和網(wǎng)絡(luò)IO,會進(jìn)一步加重計算節(jié)點負(fù)載,增大宕機(jī)可能性,實際情況下遷移操作的可執(zhí)行性大打折扣。
另外有一些對我們自動化恢復(fù)流程有利的功能或者設(shè)備已經(jīng)逐步上線到新建機(jī)房,因此可以考慮在這些機(jī)房實施相關(guān)的自動化恢復(fù)方案。比如義橋機(jī)房服務(wù)器已經(jīng)全部配備遠(yuǎn)程管理卡,并且基于ceph存儲作為系統(tǒng)盤+云硬盤的云主機(jī)也已經(jīng)上線到該機(jī)房,這是我們實施該方案的基礎(chǔ)。基于ceph存儲后端的云主機(jī)在異常恢復(fù)過程中,沒有數(shù)據(jù)的拷貝,不會占用硬盤和網(wǎng)絡(luò)IO,因此恢復(fù)速度較快,可以做到幾秒內(nèi)在正常節(jié)點恢復(fù)運行(不包含云主機(jī)操作系統(tǒng)啟動時間),相比現(xiàn)在的直接下線無法恢復(fù)或者數(shù)小時的更換硬件耗時,是對云主機(jī)SLA相當(dāng)大的提升。
需求
保證異常節(jié)點上所有被標(biāo)記為需要恢復(fù)的云主機(jī)、云硬盤資源被正確恢復(fù)(處理過程中本進(jìn)程退出其他進(jìn)程可以繼續(xù))
把所有被處理的資源記錄在案(資源id、所在節(jié)點、處理時間、調(diào)用nova/cinder服務(wù)的request-id、處理狀態(tài)等)
保證異常處理服務(wù)本身的高可用
場景
用戶創(chuàng)建云主機(jī)
用戶創(chuàng)建云主機(jī)時指定宕機(jī)恢復(fù)策略,目前有三種:
null:不做處理,節(jié)點下線之后殘留在數(shù)據(jù)庫
恢復(fù):在其他正常節(jié)點恢復(fù)重建
刪除:直接刪除
節(jié)點首次異常
首次異常之后要嘗試重啟節(jié)點(上面的云主機(jī)、云硬盤不做特殊處理),但節(jié)點已自動重啟的除外,并要分析異常原因,找到原因并可以修復(fù)的軟硬件異常,則不需要記錄到節(jié)點異常次數(shù)中,否則需要記錄在案,用做下次異常時的處理依據(jù),記錄前未找到原因,但事后找到的,需要從異常記錄中刪除該次記錄。
節(jié)點多次異常
多次異常節(jié)點需要做下線處理(多次異常包含首次異常后重啟失敗的情況),節(jié)點上的云主機(jī)需要根據(jù)創(chuàng)建時指定的宕機(jī)處理策略來執(zhí)行相應(yīng)的操作,云硬盤則一律遷移到其他正常服務(wù)的cinder-volume節(jié)點(并不會實際的遷移數(shù)據(jù),對用戶使用沒有任何影響),處理過的云主機(jī)、云硬盤要記錄在案,便于事后查驗。
方案
本方案只是初步想法,還需要在開發(fā)過程中繼續(xù)完善,尤其是服務(wù)高可用部分,以及與哨兵系統(tǒng)的交互部分,會對本服務(wù)的設(shè)計造成較大影響。
Alt pic
依賴
被恢復(fù)的云主機(jī)需使用ceph啟動盤+ceph云硬盤
nova、cinder支持把服務(wù)強(qiáng)制設(shè)置為down狀態(tài)(cinder可選,nova必須支持,否則需要等待超時變成down才可以執(zhí)行云主機(jī)的宕機(jī)恢復(fù)操作)
哨兵系統(tǒng)異常主動通知機(jī)制(建議),或者哨兵系統(tǒng)提供api供我們輪詢節(jié)點狀態(tài)
哨兵系統(tǒng)提供接口可強(qiáng)制重啟和下電節(jié)點
后續(xù)
L3節(jié)點宕機(jī)自動化處理流程
動態(tài)資源調(diào)度功能:可根據(jù)節(jié)點負(fù)載動態(tài)均衡云主機(jī)分布
節(jié)電省成本:可將空閑節(jié)點云主機(jī)遷移之后下電節(jié)點
云硬盤是網(wǎng)易云提供多種硬件介質(zhì)的塊存儲設(shè)備,用戶可以根據(jù)實際生產(chǎn)環(huán)境,靈活選擇云硬盤類型和規(guī)格大小,彈性地創(chuàng)建、刪除、掛載、卸載、擴(kuò)容云硬盤。
更多網(wǎng)易技術(shù)、產(chǎn)品、運營經(jīng)驗分享請點擊。
文章來源: 網(wǎng)易云社區(qū)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/25258.html
摘要:阿里云推出的邊緣節(jié)點服務(wù)這個云產(chǎn)品,就是針對前面提到的目標(biāo)場景,來應(yīng)對客戶自建邊緣設(shè)施遇到的痛點和挑戰(zhàn)的。針對賽事直播業(yè)務(wù)場景的優(yōu)化阿里云團(tuán)隊針對常規(guī)活動賽事電競直播這一業(yè)務(wù)場景,也做了很多技術(shù)優(yōu)化。 近日,英雄聯(lián)盟S8全球總決賽落下帷幕,中國戰(zhàn)隊IG零封FNC奪得冠軍。這場比賽引起了國內(nèi)網(wǎng)友的超高關(guān)注度,也給直播平臺帶來了不小的技術(shù)挑戰(zhàn)。虎牙直播平臺結(jié)合阿里云邊緣節(jié)點技術(shù)方案,保障了...
摘要:網(wǎng)絡(luò)可用性更多的會依賴電信運營商的服務(wù)能力。目前網(wǎng)絡(luò)接入支持電信聯(lián)通教育移動等,真正實現(xiàn)了國內(nèi)大的運營商網(wǎng)絡(luò)的覆蓋,這在國內(nèi)是很罕見的。 一、可用性如何定義 可用性(availability)是關(guān)于系統(tǒng)可供使用時間的表述,以不可用的時間為衡量指標(biāo)。不可用時間越短,可用性越高。通常用n個9來描述。比如4個9的可用性,則是指一年中不可用時間在52分鐘內(nèi),平均每周不可用時間在1分鐘。 可靠性...
摘要:接下來我們以余額寶為例,重點剖析天弘基金在日志數(shù)據(jù)分析領(lǐng)域是如何突破的此前,天弘基金一直使用開源的日志方案,研發(fā)和運維人員通過對日志數(shù)據(jù)進(jìn)行處理,使用日志文件進(jìn)行查詢檢索。 雙十一剛剛結(jié)束,其實最緊張的不是商鋪理貨,也不是網(wǎng)友緊盯大促商品準(zhǔn)備秒殺,而是網(wǎng)購幕后的運維人員,他們最擔(dān)心:什么網(wǎng)絡(luò)中斷、應(yīng)用卡頓、響應(yīng)速度慢,服務(wù)器宕機(jī)……雙十一作為電商 IT 部門的頭等大事,大促前,運維人員就需要...
摘要:我加入了騰訊,騰訊企業(yè)文化很好,經(jīng)常會有很多小組活動部門活動什么的,但是做運維很苦。所以,年的時候我們幾個騰訊的同事一同創(chuàng)業(yè),希望把我們的想法和經(jīng)驗?zāi)軌騻鬟f出來。這里我列出了騰訊互聯(lián)網(wǎng)運維團(tuán)隊所經(jīng)歷的三個階段。 本文是數(shù)人云深圳技術(shù)分享課上優(yōu)維科技聯(lián)合創(chuàng)始人彭鯉航的演講實錄,演講主題是《運維自動化實踐》。 精彩觀點搶鮮看 實現(xiàn)運維自動化閉環(huán),最主要就是配置管理、狀態(tài)管理和變更管理能力。...
摘要:一為什么要使用虛擬云桌面背景攜程呼叫中心,即服務(wù)聯(lián)絡(luò)中心,是攜程的核心部門之一,現(xiàn)有幾萬員工。他們?nèi)晷r為全球攜程用戶提供服務(wù)。為此,攜程正式引入了虛擬云桌面。攜程云桌面現(xiàn)狀攜程云桌面現(xiàn)已部署上海南通如皋合肥信陽穆棱六個呼叫中心。 編者:本文為劉科在第六期【攜程技術(shù)微分享】中的分享內(nèi)容。在攜程技術(shù)中心(微信號ctriptech)微信后臺回復(fù)【云桌面】,可加入微信交流群,和關(guān)注云桌面的...
閱讀 3286·2023-04-26 02:09
閱讀 2587·2021-11-24 09:39
閱讀 3276·2021-11-16 11:52
閱讀 3620·2021-10-26 09:50
閱讀 2775·2021-10-08 10:05
閱讀 2459·2021-09-22 15:25
閱讀 3305·2019-08-30 13:14
閱讀 917·2019-08-29 17:06