云計(jì)算憑借其強(qiáng)大的分布式計(jì)算能力,可伸縮的特性以及低成本高可靠性的優(yōu)勢(shì), 在海量數(shù)據(jù)處理方面占據(jù)優(yōu)勢(shì)地位。但是日常所產(chǎn)生的數(shù)據(jù)并非都是需要隨時(shí)存取的,事實(shí)上,我們依賴(lài)于云服務(wù)進(jìn)行存儲(chǔ)的數(shù)據(jù),大多數(shù)都不是需要頻繁訪問(wèn)的熱點(diǎn)數(shù)據(jù),大量的數(shù)據(jù)被存儲(chǔ)后訪問(wèn)頻率很低(例如數(shù)據(jù)歸檔, 長(zhǎng)期備份等場(chǎng)景,平均一年訪問(wèn)一次甚至更低),這時(shí)候我們可以將這些不再經(jīng)常使用的“冷數(shù)據(jù)”轉(zhuǎn)移到一種成本更低的存儲(chǔ)設(shè)備來(lái)進(jìn)行長(zhǎng)期保存,我們稱(chēng)這種存儲(chǔ)為歸檔存儲(chǔ)。歸檔存儲(chǔ)安全、持久且成本極低,為了保持成本低廉,數(shù)據(jù)取回時(shí)間可能需要花費(fèi)數(shù)小時(shí)。
在數(shù)據(jù)歸檔領(lǐng)域,傳統(tǒng)的磁帶庫(kù)或是藍(lán)光盤(pán)庫(kù)介質(zhì)在過(guò)往一直是首選,這些磁帶或者光盤(pán)一旦存儲(chǔ)了數(shù)據(jù),就意味著數(shù)據(jù)進(jìn)入到數(shù)據(jù)中心某個(gè)不起眼的角落中,如無(wú)必要的話,這些數(shù)據(jù)將通常會(huì)進(jìn)入到“沉睡”階段,有些數(shù)據(jù)甚至幾十年都不再被讀取使用。如今數(shù)字經(jīng)濟(jì)的背景下,冷數(shù)據(jù)的價(jià)值挖掘受到了越來(lái)越多的關(guān)注,靈活的數(shù)據(jù)檢索,準(zhǔn)實(shí)時(shí)的數(shù)據(jù)取回能力,也成為了新時(shí)代數(shù)據(jù)歸檔場(chǎng)景的核心需求。
UCloud19年上線的歸檔存儲(chǔ)為對(duì)象存儲(chǔ)US3提供了一套極低價(jià)格的數(shù)據(jù)存儲(chǔ)系統(tǒng),該系統(tǒng)具備存儲(chǔ)速度快、可靠性高、數(shù)據(jù)取回靈活等特性,以下是該系統(tǒng)的介紹。
硬件架構(gòu) UCloud的存儲(chǔ)硬件架構(gòu)是采用兩個(gè)機(jī)頭連接多個(gè)JBOD的方式來(lái)組織的,一個(gè)機(jī)架里有多個(gè)JBOD和兩個(gè)機(jī)頭,每個(gè)JBOD都分別連接到兩個(gè)機(jī)頭的HBA卡上,每個(gè)JBOD容納了一百塊以上的硬盤(pán),JBOD是存儲(chǔ)領(lǐng)域中一類(lèi)重要的存儲(chǔ)設(shè)備,英文Just a Bunch Of Disks,意為磁盤(pán)簇,磁盤(pán)連續(xù)捆束陣列,是在一個(gè)底板上安裝的帶有多個(gè)磁盤(pán)驅(qū)動(dòng)器的存儲(chǔ)設(shè)備。不同于RAID陣列,JBOD沒(méi)有用來(lái)管理磁盤(pán)上數(shù)據(jù)分布的前端邏輯,每個(gè)磁盤(pán)進(jìn)行多帶帶尋址,可以作為分開(kāi)的存儲(chǔ)資源,用戶(hù)可以像訪問(wèn)普通硬盤(pán)一樣,訪問(wèn)JBOD中的任意一塊硬盤(pán)。JBOD在近幾年被一些廠家提出,并逐漸被廣泛采用。
硬盤(pán)的選擇上我們首選HM-SMR(Host-Managed-SMR)盤(pán),當(dāng)然也兼容普通的CMR盤(pán),SMR盤(pán)的優(yōu)點(diǎn)是成本低廉,但是不支持隨機(jī)讀寫(xiě),上面的數(shù)據(jù)按固定的大小(通常是256MB)被分為一個(gè)個(gè)的Zone,只有1%的CMR Zone是支持隨機(jī)寫(xiě)的,剩余99%的SMR Zone都是只支持順序?qū)懙模瑪?shù)據(jù)的擦除也是以Zone為單位的,這種盤(pán)的缺點(diǎn)是不適用于頻繁更改性寫(xiě)入,但用來(lái)存儲(chǔ)大容量,修改少的數(shù)據(jù)卻十分合適,且成本低于普通HDD盤(pán),適合作為UCloud歸檔存儲(chǔ)的存儲(chǔ)介質(zhì)。
兩個(gè)機(jī)頭用于管理連接在上面的JBOD和硬盤(pán),裝有操作系統(tǒng),它們之間是主從關(guān)系,主機(jī)頭負(fù)責(zé)接收IO請(qǐng)求,主機(jī)頭故障后,從機(jī)頭接替成為主。
存儲(chǔ)的成本其中還有非常顯著的一部分是電力的開(kāi)銷(xiāo),如果所有硬盤(pán)長(zhǎng)時(shí)間保持全部上電狀態(tài),將帶來(lái)比較大的一筆電力開(kāi)銷(xiāo),考慮到我們歸檔存儲(chǔ)寫(xiě)多讀少的特性,且寫(xiě)入都是追加寫(xiě),速度很快,少量的硬盤(pán)就可以充分利用網(wǎng)絡(luò)帶寬,所以我們的設(shè)計(jì)目標(biāo)是在正常使用的情況下可以做到大部分的硬盤(pán)處于下電狀態(tài),只有少部分硬盤(pán)處于上電狀態(tài)提供IO,在5年的質(zhì)保期間保證50k的上下電頻率,平均下來(lái)是小時(shí)級(jí)別。為此,UCloud在軟件架構(gòu)上設(shè)計(jì)了一套上下電調(diào)度策略,具體后文會(huì)有講解。
軟件架構(gòu) 冗余策略 常用的冗余策略有副本和糾刪兩種方式,為了達(dá)到節(jié)省成本的目的,UCloud歸檔存儲(chǔ)采用的策略是對(duì)數(shù)據(jù)進(jìn)行糾刪分片,又由于硬件架構(gòu)上的較多硬盤(pán)配置,以及異步寫(xiě)的原因,我們采用了較大的EC比例。 Blob 考慮到前面提到的SMR盤(pán)的Zone和糾刪條帶的設(shè)定,我們引入了Blob這一概念, 例如采用大比例的EC糾刪策略, 把綜合考慮Zone和EC比例的數(shù)據(jù)劃分到一個(gè)Blob,這樣刪除或壓縮數(shù)據(jù)時(shí)可以以Blob為單位來(lái)進(jìn)行。 磁盤(pán)組 我們把整個(gè)系統(tǒng)的磁盤(pán)分成了一個(gè)個(gè)邏輯的磁盤(pán)組。一次IO的所有糾刪分片都在一個(gè)磁盤(pán)組中,一個(gè)Blob也只屬于某一個(gè)磁盤(pán)組,例如23+3的糾刪分片,那么一個(gè)磁盤(pán)組就包含26塊盤(pán), 且上電,下電也是以磁盤(pán)組為最小單位的。當(dāng)上層來(lái)了寫(xiě)IO時(shí),為了避免磁盤(pán)組頻繁上下電,會(huì)讓一個(gè)磁盤(pán)組持續(xù)服務(wù)寫(xiě)操作,當(dāng)該磁盤(pán)組寫(xiě)到一定的量后,按輪詢(xún)策略挑選下一個(gè)磁盤(pán)組進(jìn)行上電。
元數(shù)據(jù)
我們利用每塊硬盤(pán)那1%的支持隨機(jī)讀寫(xiě)的CMR Zone來(lái)存儲(chǔ)元數(shù)據(jù)信息,元數(shù)據(jù)信息包含兩部分,Disk Meta和Zone Meta, Disk Meta用于保存整個(gè)磁盤(pán)的元數(shù)據(jù),包含唯一標(biāo)識(shí)這塊盤(pán)的Disk ID, 屬于哪個(gè)JBOD,有多少個(gè)Zone,以及Zone Meta在磁盤(pán)中的偏移和長(zhǎng)度等。Zone Meta用于保存這塊盤(pán)每個(gè)Zone的元數(shù)據(jù)信息,包括這個(gè)Zone是第幾個(gè),有沒(méi)有被使用等。
歸檔服務(wù)啟動(dòng)時(shí),通過(guò)加載Disk Meta和Zone Meta在內(nèi)存中構(gòu)建每個(gè)Blob的信息。
上下電調(diào)度策略
為了節(jié)省電力成本,所有磁盤(pán)組并不是保持長(zhǎng)期上電狀態(tài)的,當(dāng)沒(méi)有讀IO時(shí),只有當(dāng)前負(fù)責(zé)寫(xiě)的磁盤(pán)組處于上電狀態(tài),當(dāng)這個(gè)磁盤(pán)組寫(xiě)到一定量后,切換到下一個(gè)寫(xiě)磁盤(pán)組上電,原來(lái)的寫(xiě)磁盤(pán)組安排下電。對(duì)于讀IO,分為非緊急讀和緊急讀兩種,如果是非緊急讀,且這個(gè)讀IO對(duì)應(yīng)的磁盤(pán)組處于下電狀態(tài),則為這個(gè)磁盤(pán)組加一個(gè)讀標(biāo)記,每小時(shí)輪詢(xún)所有磁盤(pán)組,將有讀標(biāo)記但處于下電狀態(tài)的磁盤(pán)組上電,已處于上電狀態(tài)的磁盤(pán)組如果超過(guò)一定時(shí)間沒(méi)有收到IO請(qǐng)求會(huì)安排下電,也就是說(shuō),對(duì)于非緊急讀,最多需要數(shù)個(gè)小時(shí)的時(shí)間來(lái)等待磁盤(pán)組上電,而對(duì)于緊急讀IO來(lái)說(shuō),如果這次IO對(duì)應(yīng)的磁盤(pán)組處于下電狀態(tài),則立即安排上電,進(jìn)行數(shù)據(jù)讀取,并且在1小時(shí)內(nèi)不安排下電,用額外的電力成本提供了緊急讀的服務(wù)。
IO流程
上層IO的數(shù)據(jù)通過(guò)計(jì)算被切割成一個(gè)個(gè)EC分片(如果數(shù)據(jù)大小沒(méi)有按EC條帶對(duì)齊需要填0),分別派發(fā)到其對(duì)應(yīng)磁盤(pán)組的每個(gè)磁盤(pán)上,如果是非緊急讀IO可能需要等待對(duì)應(yīng)的磁盤(pán)組上電后進(jìn)行重試,如果是寫(xiě)IO,當(dāng)一個(gè)Blob寫(xiě)滿后,也就是磁盤(pán)組中每個(gè)磁盤(pán)的當(dāng)前Zone被寫(xiě)滿后,會(huì)切換到下一個(gè)Zone,分配下一個(gè)Blob開(kāi)始寫(xiě),寫(xiě)成功后向上層返回這次IO對(duì)應(yīng)的Blob編號(hào)和在這個(gè)Blob內(nèi)的偏移,用于上層組織文件的元數(shù)據(jù)信息。
數(shù)據(jù)保存
數(shù)據(jù)在磁盤(pán)上是以4KB大小的Sector為單位寫(xiě)下去的,每個(gè)IO所攜帶的數(shù)據(jù)經(jīng)過(guò)EC計(jì)算后落盤(pán)時(shí),都會(huì)被拆分成一個(gè)個(gè)Sector, 且在每個(gè)Sector的尾部都填充了一塊Sector Meta,用于記錄這個(gè)Sector的元數(shù)據(jù)信息,包括這個(gè)Sector對(duì)應(yīng)了第幾個(gè)Zone,以及這個(gè)Sector上數(shù)據(jù)的crc等,這樣可以防止硬盤(pán)的靜默錯(cuò)誤。
周期性數(shù)據(jù)檢查
歸檔服務(wù)啟動(dòng)后會(huì)周期性掃描已經(jīng)寫(xiě)滿的Blob,對(duì)這個(gè)Blob的每個(gè)Sector進(jìn)行數(shù)據(jù)校驗(yàn),這一過(guò)程利用了上文提到的每個(gè)Sector 尾部的Sector Meta里保存的crc,校驗(yàn)失敗時(shí)會(huì)上報(bào)錯(cuò)誤,通知到相關(guān)運(yùn)維人員進(jìn)行處理。
總結(jié) 這套歸檔存儲(chǔ)系統(tǒng)在保證了高性能、安全的前提下,大幅地優(yōu)化了成本。非常適用于一些數(shù)據(jù)量大但訪問(wèn)頻率不高的存儲(chǔ)場(chǎng)景,比如保存一些下載量少的多媒體數(shù)據(jù),大型數(shù)據(jù)庫(kù)、日志、用戶(hù)資料的備份等等。目前,UCloud歸檔存儲(chǔ)服務(wù)已經(jīng)于2019年上線,且穩(wěn)定運(yùn)行多年,預(yù)計(jì)隨著更大范圍的應(yīng)用,將會(huì)更大幅度地節(jié)省存儲(chǔ)成本。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/128389.html
摘要:對(duì)此,存儲(chǔ)產(chǎn)品經(jīng)理周恭元在月日剛結(jié)束的技術(shù)分論壇上帶來(lái)了海量數(shù)據(jù)云歸檔存儲(chǔ)最佳實(shí)踐的議題分享,圍繞企業(yè)數(shù)據(jù)歸檔面臨的存儲(chǔ)問(wèn)題及需求,重點(diǎn)介紹了數(shù)據(jù)存儲(chǔ)的分層價(jià)值,以及新一代歸檔存儲(chǔ)的可靠性?xún)?yōu)勢(shì)及三大適用場(chǎng)景。隨著互聯(lián)網(wǎng)科技的不斷進(jìn)步,產(chǎn)生的數(shù)據(jù)將以成倍速度進(jìn)行增長(zhǎng),據(jù)IDC預(yù)測(cè),到2025年全球數(shù)據(jù)總量將會(huì)達(dá)到175ZB。如果要把175ZB用8TB的磁盤(pán)存下來(lái)的話,那就需要230億塊磁盤(pán)來(lái)存...
摘要:目前,對(duì)象存儲(chǔ)是這些海量非結(jié)構(gòu)化數(shù)據(jù)最好的存儲(chǔ)載體。宋體做式的對(duì)象存儲(chǔ)宋體是年推出的對(duì)象存儲(chǔ)產(chǎn)品。宋體二業(yè)務(wù)低成本宋體對(duì)象級(jí)別的分層存儲(chǔ)宋體采用專(zhuān)門(mén)的存儲(chǔ)機(jī)型,存儲(chǔ)密度更高,單位存儲(chǔ)的成本最低可降到計(jì)算機(jī)型的。隨著 5G+IoT 時(shí)代來(lái)臨,產(chǎn)生數(shù)據(jù)的主角除了人類(lèi)還有海量的物理設(shè)備,相比 4G 移動(dòng)互聯(lián)網(wǎng)的短視頻、直播等,會(huì)有更大量的數(shù)據(jù)產(chǎn)生。據(jù) IDC 發(fā)布的《數(shù)據(jù)時(shí)代 2025》的預(yù)測(cè),全...
摘要:更多歸檔存儲(chǔ)類(lèi)型的使用說(shuō)明請(qǐng)參考數(shù)據(jù)歸檔方案。控制臺(tái)快速上手注產(chǎn)品已作為歸檔存儲(chǔ)類(lèi)型合并至對(duì)象存儲(chǔ),目前不再向新用戶(hù)提供獨(dú)立的歸檔存儲(chǔ)服務(wù)。創(chuàng)建歸檔存儲(chǔ)空間登錄控制臺(tái),選擇右側(cè)歸檔存儲(chǔ)后進(jìn)入歸檔存儲(chǔ)列表頁(yè),選擇創(chuàng)建歸檔存儲(chǔ)空間按鈕。使用場(chǎng)景注:UArchive 產(chǎn)品已作為歸檔存儲(chǔ)類(lèi)型合并至 US3 對(duì)象存儲(chǔ),目前不再向新用戶(hù)提供獨(dú)立的歸檔存儲(chǔ)服務(wù)。如需使用更低成本的對(duì)象存儲(chǔ)服務(wù),請(qǐng)至 US3...
隨著數(shù)據(jù)量的增長(zhǎng)、數(shù)據(jù)來(lái)源途徑的多元化,企業(yè)用戶(hù)需要考慮到私有云與公有云數(shù)據(jù)存儲(chǔ)的統(tǒng)一性管理,從而隨時(shí)隨地能夠從數(shù)據(jù)存儲(chǔ)平臺(tái)上獲得用戶(hù)所需要的數(shù)據(jù),為業(yè)務(wù)創(chuàng)新帶來(lái)敏捷的數(shù)據(jù)價(jià)值。當(dāng)前行業(yè)用戶(hù)對(duì)混合云的需求越發(fā)明顯,云廠商也是不斷推動(dòng)混合云解決方案在百行百業(yè)中的深入發(fā)展,從而,讓混合云與以軟件定義為主導(dǎo)的存儲(chǔ)顯得越來(lái)越密不可分。因而,就帶來(lái)了一個(gè)重要的混合云治理話題:混合云架構(gòu)下,如何讓數(shù)據(jù)存儲(chǔ)無(wú)邊...
摘要:三是可以降低我們的寫(xiě)放大,在寫(xiě)入時(shí)不會(huì)由于需要更新元數(shù)據(jù)而寫(xiě)入兩次,這在隨機(jī)能力不是強(qiáng)項(xiàng)的硬盤(pán)場(chǎng)景下也格外重要。前言UCloud在2020年8月正式發(fā)布了基于US3的全新一代歸檔存儲(chǔ)產(chǎn)品,該產(chǎn)品采用UCloud全新自研存儲(chǔ)架構(gòu),相較標(biāo)準(zhǔn)存儲(chǔ)降低近80%存儲(chǔ)成本的同時(shí),與市場(chǎng)同類(lèi)歸檔存儲(chǔ)產(chǎn)品相比降低近30%的價(jià)格。據(jù)IDC的預(yù)測(cè),全球年新增數(shù)據(jù)量到2025年將達(dá)175ZB,真正能存儲(chǔ)下來(lái)的數(shù)據(jù)...
閱讀 283·2024-11-07 18:25
閱讀 130362·2024-02-01 10:43
閱讀 867·2024-01-31 14:58
閱讀 828·2024-01-31 14:54
閱讀 82766·2024-01-29 17:11
閱讀 3047·2024-01-25 14:55
閱讀 1985·2023-06-02 13:36
閱讀 3032·2023-05-23 10:26