摘要:三是可以降低我們的寫放大,在寫入時(shí)不會(huì)由于需要更新元數(shù)據(jù)而寫入兩次,這在隨機(jī)能力不是強(qiáng)項(xiàng)的硬盤場景下也格外重要。
前言
UCloud在2020年8月正式發(fā)布了基于US3的全新一代歸檔存儲(chǔ)產(chǎn)品,該產(chǎn)品采用UCloud全新自研存儲(chǔ)架構(gòu),相較標(biāo)準(zhǔn)存儲(chǔ)降低近80%存儲(chǔ)成本的同時(shí),與市場同類歸檔存儲(chǔ)產(chǎn)品相比降低近30%的價(jià)格。據(jù)IDC的預(yù)測,全球年新增數(shù)據(jù)量到2025年將達(dá)175ZB,真正能存儲(chǔ)下來的數(shù)據(jù)僅有15ZB左右,流失率超過91%。在目前企業(yè)數(shù)據(jù)的冰山模型里,80%的數(shù)據(jù)量來源于冷數(shù)據(jù)。在公有云領(lǐng)域,UCloud認(rèn)為容量型存儲(chǔ)通過技術(shù)手段提升發(fā)展的空間還十分巨大。
如何最大化利用最新的高容量硬件來進(jìn)一步降低存儲(chǔ)成本?如何在歸檔存儲(chǔ)長期保存的場景下充分保障用戶的數(shù)據(jù)安全?這些都需要對US3歸檔存儲(chǔ)的整個(gè)IO路徑做較大的優(yōu)化以及硬件適配工作,同時(shí)我們還需要保障產(chǎn)品的易用性,避免給用戶帶來額外的使用成本。
接下來本文將從UCloud如何利用硬盤技術(shù)提升存儲(chǔ)密度以及優(yōu)化IO調(diào)度來降低運(yùn)營成本這兩個(gè)角度,詳細(xì)解析US3歸檔存儲(chǔ)的底層存儲(chǔ)引擎的軟件以及硬件選型優(yōu)化細(xì)節(jié)。
采用SMR盤+JBOD設(shè)備提高存儲(chǔ)密度
降低硬件層面的成本,主要體現(xiàn)在提高存儲(chǔ)密度上。這里我們探索過包括藍(lán)光,磁帶、硬盤等不同的存儲(chǔ)介質(zhì),也有參考過微軟的Pelican系統(tǒng)的硬件設(shè)計(jì)??紤]到我們最終實(shí)現(xiàn)的目標(biāo)是期望用戶可以在緊急情況下分鐘內(nèi)實(shí)現(xiàn)數(shù)據(jù)的激活與讀取,正常情況下可以在小時(shí)內(nèi)完成激活與讀取,對于用戶的最短保存時(shí)間不需要以年來計(jì)算。因此,UCloud結(jié)合自身的存儲(chǔ)技術(shù)優(yōu)勢,暫時(shí)排除了藍(lán)光以及磁帶的存儲(chǔ)介質(zhì)實(shí)現(xiàn),主要采用高密度硬盤的方式來實(shí)現(xiàn)歸檔型的云存儲(chǔ)服務(wù)。
這里先介紹一下傳統(tǒng)硬盤是怎么記錄數(shù)據(jù)的。
這種傳統(tǒng)的硬盤一般來說是屬于垂直磁記錄PMR類型的硬盤。數(shù)據(jù)通過寫入彼此平行而不重疊的磁道來記錄數(shù)據(jù),提升數(shù)據(jù)存儲(chǔ)容量只能通過提升磁道數(shù)量來提升。
相較于這種傳統(tǒng)的硬盤還有一種基于疊瓦磁記錄SMR的磁存儲(chǔ)數(shù)據(jù)記錄技術(shù)的硬盤可以提升存儲(chǔ)密度以及整體硬盤的存儲(chǔ)容量。這里介紹SMR硬盤的硬件實(shí)現(xiàn)之前還需要先了解一個(gè)背景知識(shí),首先我們將磁盤的磁頭放大來看。
由于物理上的原因,磁盤寫入磁頭所需要的寬度要比讀取的磁頭寬上很多,這就導(dǎo)致了讀寫兩個(gè)操作對于磁道寬度的需求其實(shí)是不對等的,寫入需要的寬度更多,這就給提高磁盤密度帶來了可能性,下面我們再來看一下SMR磁盤的構(gòu)造。
SMR硬盤寫入的新磁道與先前寫入的磁道部分重疊,從而使先前的磁道更窄,因此能擁有更高的磁道密度。由此可以看出,使用疊瓦磁技術(shù)的磁道相互重疊,與用作屋頂?shù)耐咂询B方式類似,所以叫做疊瓦磁記錄硬盤。
從SMR硬盤的硬件構(gòu)造我們不難看出在提升硬盤存儲(chǔ)容量的同時(shí),對于寫入其實(shí)會(huì)造成很大的困難,一旦當(dāng)前磁道的下一條磁道被寫入過數(shù)據(jù),這個(gè)磁道如果再想寫入,由于磁道有重疊,寫入的磁頭又較大就會(huì)對后面的數(shù)據(jù)造成影響。所以從使用的角度來看,SMR硬盤會(huì)被劃分成若干的Zone,每個(gè)Zone中的數(shù)據(jù)只能夠進(jìn)行追加寫入,這其中又會(huì)有1%的Zone,磁道不重疊,叫做CMR Zone,可以支持隨機(jī)讀寫。
可想而知如果要對上層屏蔽SMR盤帶來的限制的話會(huì)帶來不少的代價(jià),這里有device managed、host aware兩種方式來簡單屏蔽掉SMR的順序?qū)懭胂拗?,但不論哪一種,都是將隨機(jī)IO轉(zhuǎn)化為順序IO,這樣會(huì)帶來一定的寫放大以及讀性能下降,以及在特定IO場景下的硬盤壽命影響,且上層對其影響不可控。
UCloud存儲(chǔ)團(tuán)隊(duì)在多個(gè)現(xiàn)有產(chǎn)品上,都有繞過文件系統(tǒng)直接對塊層存儲(chǔ)操作的技術(shù)積累,為避免對底層存儲(chǔ)落地文件系統(tǒng)有強(qiáng)依賴,我們選取了host managed的方式來對SMR盤進(jìn)行讀寫管理。
在硬盤數(shù)據(jù)落地的同時(shí),我們也將相關(guān)的少量元數(shù)據(jù)與數(shù)據(jù)合并在一起寫入,這樣做有三方面考慮:
一是這部分少量元數(shù)據(jù),我們會(huì)包含這一次IO的整體CRC,用于防止硬盤的靜默錯(cuò)誤(Silent Data Corruption),提高用戶在使用US3歸檔存儲(chǔ)時(shí)的數(shù)據(jù)可靠性,因此在冷存儲(chǔ)這種海量且長期存儲(chǔ)場景硬盤的比特位反轉(zhuǎn)(bit flip)等錯(cuò)誤還是需要我們特別關(guān)注的。
二是當(dāng)我們的元數(shù)據(jù)受到一些毀滅性的軟硬件問題導(dǎo)致不可用時(shí),我們可以通過重新讀取這些隨IO寫入的元數(shù)據(jù)復(fù)原出整體的結(jié)構(gòu),當(dāng)然這個(gè)代價(jià)也是比較大,預(yù)期也是在應(yīng)對一些黑天鵝事件時(shí)的處理方案。
三是可以降低我們的寫放大,在寫入時(shí)不會(huì)由于需要更新元數(shù)據(jù)而寫入兩次IO,這在隨機(jī)IO能力不是強(qiáng)項(xiàng)的HDD硬盤場景下也格外重要。
我們選取了其中頭部的若干CMR Zone用于自解析當(dāng)前盤的元數(shù)據(jù),并冗余多份,這里由于自身1%的CMR Zone對于元數(shù)據(jù)來說還是較多,所以這里我們將部分CMR Zone和只能追加寫的SMR Zone都抽象成了只能追加寫的Data Zone,來最大化的利用磁盤的空間。
至此我們提高了單塊磁盤的存儲(chǔ)密度,使單塊硬盤存儲(chǔ)空間提升150%,相較于之前,我們還提高了單機(jī)柜的磁盤密度來進(jìn)一步提升整體的存儲(chǔ)密度。相較于傳統(tǒng)36盤位的傳統(tǒng)高密機(jī)型,我們采用了JBOD的方式。這里受益于 UCloud自建機(jī)房的優(yōu)勢,先前單機(jī)柜機(jī)房地板承重以及高功率機(jī)柜稀缺的限制不再存在,從而可以在單機(jī)柜存放更多的JBOD存儲(chǔ)設(shè)備,使單位機(jī)架的存儲(chǔ)容量提升5.375倍,硬盤數(shù)量增加59%。
除此之外,我們還采用了雙機(jī)頭硬件架構(gòu),所有JBOD中的硬盤保證同時(shí)雙機(jī)頭可見,這樣保證了在單機(jī)宕機(jī)的情況下,仍然可以通過我們的選主算法立刻切到另外一個(gè)機(jī)器上,保證服務(wù)的可用性。
優(yōu)化IO調(diào)度算法降低運(yùn)營成本
提高密度本質(zhì)上降低的是我們的CAPEX(Capital Expenditure)資本性支出,在歸檔存儲(chǔ)的場景下長期的OPEX(Operating Expense)運(yùn)營成本也占比較大。這里我們做出的優(yōu)化是在不影響用戶使用體驗(yàn)及存儲(chǔ)性能的前提下降低我們的電費(fèi)支出(即降低OPEX成本)。
為此我們在IO調(diào)度層增加基于硬盤Spin-up、 Spin-down的調(diào)度算法。用來降低在高密度機(jī)型的冷存儲(chǔ)場景下大量硬盤空轉(zhuǎn)的電力浪費(fèi)。
這里整體的調(diào)度算法需要考慮的因素很多,我們首先根據(jù)故障域把JBOD中的磁盤分成若干個(gè)磁盤組,保證在適當(dāng)?shù)腅C條帶以及JBOD個(gè)數(shù)下,能夠容忍磁盤以及JBOD層面的故障,之后Spin up-down的操作都基于磁盤組為單位進(jìn)行操作。
同時(shí)我們需要考慮在滿足用戶緊急讀取需求的同時(shí)保證硬盤的Spin up-down次數(shù)在一定的范圍之內(nèi),這里我們將硬盤使用壽命內(nèi)的可操作上下電次數(shù)平均到每天每小時(shí),在算法上保證磁盤的每次Spin up-down會(huì)有一定的冷卻時(shí)間,而用戶的普通讀再通過正常的輪詢上電的時(shí)間片內(nèi)進(jìn)行讀取,這樣既可以降低用戶的使用成本也保證了用戶數(shù)據(jù)在硬盤使用方式層面的可靠性。
除了可靠性上面的考慮,我們也需要保證寫入的性能是否能夠吃滿我們的硬件,由于SMR盤以及業(yè)務(wù)邏輯的特殊性我們的寫入包括之后的Compaction都是大量順序?qū)懭?,所以我們配合EC條帶的大小保證一個(gè)磁盤組的寫入數(shù)據(jù)帶寬可以吃滿我們整體設(shè)備的網(wǎng)卡帶寬,這樣在性能上就不會(huì)有額外的浪費(fèi)。
寫在最后
基于上述提高磁盤存儲(chǔ)密度以及降低運(yùn)營成本(即電費(fèi))兩個(gè)主要方面的設(shè)計(jì)考慮,我們研發(fā)了US3歸檔存儲(chǔ)的底層存儲(chǔ)引擎(如上圖所示),在大幅降低US3歸檔存儲(chǔ)成本的同時(shí),保障了在歸檔存儲(chǔ)這種長期冷存儲(chǔ)下的數(shù)據(jù)高可靠性。
后續(xù)US3歸檔存儲(chǔ)會(huì)繼續(xù)從各個(gè)方面提升產(chǎn)品的使用體驗(yàn),例如更加便捷自動(dòng)的數(shù)據(jù)降冷處理,更加智能化的降低存儲(chǔ)成本,讓用戶充分享受UCloud技術(shù)創(chuàng)新帶來的價(jià)格紅利。還會(huì)探索深度歸檔場景下磁帶等其他存儲(chǔ)介質(zhì)的使用,讓用戶不用與復(fù)雜的底層硬件進(jìn)行直接的交互,就能滿足海量冷數(shù)據(jù)存儲(chǔ)的需求。
文章來源:U-Star技術(shù)創(chuàng)作者
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/126467.html
摘要:本次大會(huì)上,優(yōu)刻得基于自研的全新存儲(chǔ)底層架構(gòu)推出新一代對象存儲(chǔ)產(chǎn)品。推出新一代自研存儲(chǔ)引擎,持續(xù)降低存儲(chǔ)成本優(yōu)刻得在今年月推出了元月的歸檔存儲(chǔ)產(chǎn)品,打破了存儲(chǔ)領(lǐng)域降本的邊界。伴隨著5G、大數(shù)據(jù)的廣泛應(yīng)用,帶來了數(shù)據(jù)量的爆炸式增長。根據(jù)IDC預(yù)測,2025年全球數(shù)據(jù)總量將達(dá)到驚人的175ZB。數(shù)據(jù)存儲(chǔ)在未來的數(shù)字化時(shí)代將面臨更多挑戰(zhàn):每秒鐘存儲(chǔ)數(shù)據(jù)寫入性能、數(shù)據(jù)云端存儲(chǔ)可靠性、數(shù)據(jù)存儲(chǔ)成本增高...
摘要:對此,存儲(chǔ)產(chǎn)品經(jīng)理周恭元在月日剛結(jié)束的技術(shù)分論壇上帶來了海量數(shù)據(jù)云歸檔存儲(chǔ)最佳實(shí)踐的議題分享,圍繞企業(yè)數(shù)據(jù)歸檔面臨的存儲(chǔ)問題及需求,重點(diǎn)介紹了數(shù)據(jù)存儲(chǔ)的分層價(jià)值,以及新一代歸檔存儲(chǔ)的可靠性優(yōu)勢及三大適用場景。隨著互聯(lián)網(wǎng)科技的不斷進(jìn)步,產(chǎn)生的數(shù)據(jù)將以成倍速度進(jìn)行增長,據(jù)IDC預(yù)測,到2025年全球數(shù)據(jù)總量將會(huì)達(dá)到175ZB。如果要把175ZB用8TB的磁盤存下來的話,那就需要230億塊磁盤來存...
摘要:近日,國內(nèi)權(quán)威咨詢機(jī)構(gòu)計(jì)世資訊發(fā)布年中國公有云市場發(fā)展?fàn)顩r研究報(bào)告,對公有云市場發(fā)展現(xiàn)狀以及未來趨勢進(jìn)行了詳細(xì)解讀。近日,國內(nèi)權(quán)威咨詢機(jī)構(gòu)計(jì)世資訊(CCW Research)發(fā)布《2019-2020年中國公有云市場發(fā)展?fàn)顩r研究報(bào)告》,對公有云市場發(fā)展現(xiàn)狀以及未來趨勢進(jìn)行了詳細(xì)解讀。據(jù)計(jì)世資訊統(tǒng)計(jì),由于2020年爆發(fā)的新冠疫情加速了企業(yè)上云的進(jìn)程,預(yù)計(jì)2020年公有云市場規(guī)模相比2019年增長...
摘要:歸檔存儲(chǔ)空間英文名稱,是歸檔文件的組織單位,相當(dāng)于目錄的作用,也是計(jì)費(fèi)權(quán)限控制等功能的管理單位。歸檔文件英文名稱,是數(shù)據(jù)操作的基本單元,支持任意數(shù)據(jù)類型。主要概念注:UArchive 產(chǎn)品已作為歸檔存儲(chǔ)類型合并至 US3 對象存儲(chǔ),目前不再向新用戶提供獨(dú)立的歸檔存儲(chǔ)服務(wù)。如需使用更低成本的對象存儲(chǔ)服務(wù),請至 US3 對象存儲(chǔ)控制臺(tái) 。更多 US3 歸檔存儲(chǔ)類型的使用說明請參考 數(shù)據(jù)歸檔方案。...
摘要:目前,對象存儲(chǔ)是這些海量非結(jié)構(gòu)化數(shù)據(jù)最好的存儲(chǔ)載體。宋體做式的對象存儲(chǔ)宋體是年推出的對象存儲(chǔ)產(chǎn)品。宋體二業(yè)務(wù)低成本宋體對象級(jí)別的分層存儲(chǔ)宋體采用專門的存儲(chǔ)機(jī)型,存儲(chǔ)密度更高,單位存儲(chǔ)的成本最低可降到計(jì)算機(jī)型的。隨著 5G+IoT 時(shí)代來臨,產(chǎn)生數(shù)據(jù)的主角除了人類還有海量的物理設(shè)備,相比 4G 移動(dòng)互聯(lián)網(wǎng)的短視頻、直播等,會(huì)有更大量的數(shù)據(jù)產(chǎn)生。據(jù) IDC 發(fā)布的《數(shù)據(jù)時(shí)代 2025》的預(yù)測,全...
閱讀 3514·2023-04-25 20:09
閱讀 3720·2022-06-28 19:00
閱讀 3035·2022-06-28 19:00
閱讀 3058·2022-06-28 19:00
閱讀 3131·2022-06-28 19:00
閱讀 2859·2022-06-28 19:00
閱讀 3014·2022-06-28 19:00
閱讀 2610·2022-06-28 19:00