摘要:李飛飛花名飛刀,阿里巴巴集團(tuán)副總裁,高級(jí)研究員,達(dá)摩院首席數(shù)據(jù)庫科學(xué)家,阿里云智能事業(yè)群數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人,杰出科學(xué)家。是阿里云的云原生數(shù)據(jù)庫,目前已有非常深厚的技術(shù)積累。
阿里妹導(dǎo)讀:云計(jì)算大潮來襲,傳統(tǒng)數(shù)據(jù)庫市場(chǎng)正面臨重新洗牌的情境,包括云數(shù)據(jù)庫在內(nèi)的一批新生力量崛起,動(dòng)搖了傳統(tǒng)數(shù)據(jù)庫的壟斷地位,而由云廠商主導(dǎo)的云原生數(shù)據(jù)庫則將這種“改變”推向了高潮。
云時(shí)代的數(shù)據(jù)庫將面臨怎樣的變革?云原生數(shù)據(jù)庫有哪些獨(dú)特優(yōu)勢(shì)?在 DTCC 2019大會(huì)上,阿里巴巴副總裁 李飛飛博士就《下一代云原生數(shù)據(jù)庫技術(shù)與趨勢(shì)》進(jìn)行了精彩分享。
李飛飛(花名:飛刀),阿里巴巴集團(tuán)副總裁,高級(jí)研究員,達(dá)摩院首席數(shù)據(jù)庫科學(xué)家,阿里云智能事業(yè)群數(shù)據(jù)庫產(chǎn)品事業(yè)部負(fù)責(zé)人,ACM 杰出科學(xué)家。
大勢(shì)所趨:云數(shù)據(jù)庫市場(chǎng)份額增速迅猛如下圖所示的是 Gartner 關(guān)于全球數(shù)據(jù)庫市場(chǎng)份額的報(bào)告,該報(bào)告指出目前全球數(shù)據(jù)庫市場(chǎng)份額大約為400億美金,其中,中國(guó)數(shù)據(jù)庫市場(chǎng)份額占比為3.7%,大約為14億美金。
具體到數(shù)據(jù)庫市場(chǎng)分布,傳統(tǒng)五大數(shù)據(jù)庫廠商 Oracle、Microsoft、IBM、SAP、Teradata 占比達(dá)到了80%,云數(shù)據(jù)庫的份額占比接近10%,并且云數(shù)據(jù)庫市場(chǎng)份額占比每年也在快速增長(zhǎng),因此, Oracle、MongoDB 等也在大力布局其在云數(shù)據(jù)庫市場(chǎng)的競(jìng)爭(zhēng)態(tài)勢(shì)。
根據(jù) DB-Engines 數(shù)據(jù)庫市場(chǎng)分析顯示,數(shù)據(jù)庫系統(tǒng)正朝著多樣化、多元化的方向發(fā)展,從傳統(tǒng)的 TP 關(guān)系型數(shù)據(jù)庫發(fā)展到今天的多源異構(gòu)的數(shù)據(jù)庫形態(tài)。目前,處于主流位置的還是大家耳熟能詳?shù)臄?shù)據(jù)庫系統(tǒng),比如商業(yè)數(shù)據(jù)庫 Oracle、SQL Server以及開源的 MySQL、PostgreSQL 等。而一些比較新的數(shù)據(jù)庫系統(tǒng),比如MongoDB、Redis 則開辟了一個(gè)新的賽道。數(shù)據(jù)庫 License 的傳統(tǒng)銷售方式在逐漸走下坡路,而開源以及云上數(shù)據(jù)庫 License 的流行程度卻在不斷提升。
數(shù)據(jù)庫:云上應(yīng)用關(guān)鍵的一環(huán)正如 AWS 創(chuàng)始人 Jeff Bezos 所說:“The real battle will be in databases”。因?yàn)樵谱钤缡菑?IaaS 做起來的,從虛擬機(jī)、存儲(chǔ)、網(wǎng)絡(luò),到現(xiàn)在如火如荼的語音識(shí)別、計(jì)算機(jī)視覺以及機(jī)器人等智能化應(yīng)用,都是基于 IaaS 的,而數(shù)據(jù)庫就是連接 IaaS 與智能化應(yīng)用 SaaS 最為關(guān)鍵的一環(huán)。從數(shù)據(jù)產(chǎn)生、存儲(chǔ)到消費(fèi)的各個(gè)環(huán)節(jié),數(shù)據(jù)庫都至關(guān)重要。
數(shù)據(jù)庫主要包括四大板塊,即 OLTP、OLAP、NoSQL 以及數(shù)據(jù)庫服務(wù)和管理類工具,也是云數(shù)據(jù)庫廠商發(fā)力的四個(gè)方向。對(duì)于 OLTP 而言,技術(shù)發(fā)展已經(jīng)歷經(jīng)了40年,而如今大家還在做的一件事情就是“加10元和減10元”,也就是所謂的事務(wù)處理。當(dāng)數(shù)據(jù)量變得越來越大和讀寫沖突的原因,對(duì)數(shù)據(jù)進(jìn)行在線實(shí)時(shí)分析的需求衍生出了 OLAP。由于需要 Scale out,而數(shù)據(jù)強(qiáng)一致性不能夠得到保證,就有了NoSQL 。而最近又出現(xiàn)了一個(gè)新名詞—— NewSQL,這是因?yàn)?NoSQL 也有所不足,故將傳統(tǒng) OLTP 的 ACID 保證與 NoSQL 的 Scale out 能力進(jìn)行了整合,變成了NewSQL。
數(shù)據(jù)庫系統(tǒng)架構(gòu)演進(jìn):All depends on what is shared縱觀數(shù)據(jù)庫40年來的發(fā)展歷史,從最早的關(guān)系型數(shù)據(jù)庫時(shí)期,衍生出了 SQL、OLTP 等技術(shù);到數(shù)據(jù)量急劇增長(zhǎng),需要避免讀寫沖突,通過 ETL、數(shù)據(jù)倉庫以及 Data Cube 等技術(shù)實(shí)現(xiàn)了 OLAP;再到今天,面對(duì)異構(gòu)多源的數(shù)據(jù)結(jié)構(gòu),從圖到時(shí)序、時(shí)空到向量等,也就誕生了 NoSQL、NewSQL 等數(shù)據(jù)庫,同時(shí)也出現(xiàn)了一些新的技術(shù),比如 Multi-Model 和 HTAP 等。
數(shù)據(jù)庫系統(tǒng)最為主流的架構(gòu)是 Shared Memory:共享處理器內(nèi)核,共享內(nèi)存并且具有共享的本地磁盤,這樣的單機(jī)架構(gòu)屬于非常主流的架構(gòu),傳統(tǒng)的數(shù)據(jù)庫廠商基本采用的也是這樣的架構(gòu)。
而隨著互聯(lián)網(wǎng)企業(yè)的大規(guī)模發(fā)展,如 Google、Amazon 以及阿里巴巴,大家發(fā)現(xiàn)原來的單機(jī)架構(gòu)有很多限制,其可擴(kuò)展性以及吞吐量無法滿足業(yè)務(wù)發(fā)展需求,于是就衍生出了 Shared Disk/Storage 架構(gòu),即共享存儲(chǔ)架構(gòu)。也就是說數(shù)據(jù)庫底層可能是分布式存儲(chǔ),通過利用 RDMA 這樣的快速網(wǎng)絡(luò)讓上層的數(shù)據(jù)庫內(nèi)核看起來像是在使用本地的磁盤,但實(shí)際上是分布式存儲(chǔ)。上面可以有多個(gè)獨(dú)立計(jì)算節(jié)點(diǎn),一般是一寫多讀,但是也可以做多寫多讀,這就是共享存儲(chǔ)架構(gòu),其中比較典型的代表就是阿里云的 POLARDB 數(shù)據(jù)庫。
另外一種架構(gòu)是 Shared Nothing 。共享存儲(chǔ)雖然有諸多優(yōu)點(diǎn),解決了很多問題,但是 RDMA 網(wǎng)絡(luò)也存在很多的限制,比如其跨越 Switch 甚至是跨 AZ 和 Region 的時(shí)候性能都會(huì)有所損失。分布式的共享存儲(chǔ)達(dá)到一定的節(jié)點(diǎn)數(shù)量之后,性能會(huì)出現(xiàn)一定的損耗,所以不能保證訪問遠(yuǎn)程數(shù)據(jù)和訪問本地?cái)?shù)據(jù)的性能完全相同,所以共享存儲(chǔ)的架構(gòu)當(dāng)擴(kuò)展到十幾個(gè)節(jié)點(diǎn)之后就達(dá)到了 scale out 擴(kuò)展的上限了。此時(shí),如果應(yīng)用需要繼續(xù)擴(kuò)展怎么辦呢?那就需要實(shí)現(xiàn)分布式架構(gòu)了,比較典型的就是 Google Spanner,其利用原子鐘技術(shù)能夠?qū)崿F(xiàn)跨數(shù)據(jù)中心的數(shù)據(jù)一致性和事務(wù)一致性。而在阿里云,基于 POLARDB 實(shí)現(xiàn)的分布式版本 POLARDB-X 采用的也是 Shared Nothing 架構(gòu)。
這里需要注意的一點(diǎn)就是:Shared Nothing 和 Shared Storage 可以結(jié)合。可以在上層做 Shared Nothing,而對(duì)于下層的 Shard 分片采用 Shared Storage 架構(gòu)。這樣混合架構(gòu)的好處在于能夠減輕分出太多 Shard 的痛點(diǎn)問題,減少分布式事務(wù)distributed commit的 概率,因?yàn)?distributed commit 的代價(jià)非常昂貴。
總結(jié)三種架構(gòu)設(shè)計(jì),如果在 Shared Storage 架構(gòu)上做到多寫多讀而不是一寫多讀,實(shí)際上也就實(shí)現(xiàn)了 SharedEverything 。將 Shared nothing 和 Sharedstorage 架構(gòu)進(jìn)行結(jié)合的 hybrid 架構(gòu)應(yīng)該是后續(xù)數(shù)據(jù)庫系統(tǒng)發(fā)展方向的一個(gè)重要突破點(diǎn)。
云原生數(shù)據(jù)庫核心四要素上面從架構(gòu)方面分析了云時(shí)代的主流數(shù)據(jù)庫架構(gòu)。從技術(shù)上來講,除了架構(gòu)上的不同,云原生時(shí)代還有一些不同點(diǎn)。
多模(Multi-model)
其一是多模(Multi-model),多模主要有兩種,即北向和南向。南向表示存儲(chǔ)結(jié)構(gòu)是多種多樣的,數(shù)據(jù)結(jié)構(gòu)可以是結(jié)構(gòu)化的也可以是非結(jié)構(gòu)化的,可以是圖、向量、文檔等,但對(duì)于用戶只提供一個(gè) SQL 的查詢接口或者 SQL-Like 的接口,這部分業(yè)界比較典型的就是各種各樣的數(shù)據(jù)湖服務(wù)。而北向的多模就是存儲(chǔ)只有一種,一般是通過 KV 存儲(chǔ)數(shù)據(jù)形態(tài)來支持結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),但希望能夠提供不同的查詢接口,比如 SPARQL、SQL、GQL 等。業(yè)界典型的代表是微軟 Azure 的CosmosDB。
數(shù)據(jù)庫智能化+自動(dòng)化管控平臺(tái)
數(shù)據(jù)庫的自治化也是非常重要的發(fā)展方向,從數(shù)據(jù)庫的內(nèi)核以及管控平臺(tái)兩個(gè)角度都有很多技術(shù)點(diǎn)可以做。在數(shù)據(jù)庫自治化部分,阿里巴巴認(rèn)為,需要做到自感知、自決策、自恢復(fù)以及自優(yōu)化。自優(yōu)化比較簡(jiǎn)單,就是在內(nèi)核中利用機(jī)器學(xué)習(xí)的方法來進(jìn)行優(yōu)化。而自感知、自決策、自恢復(fù)更多的是針對(duì)管控平臺(tái)的,比如如何保證實(shí)例的巡檢,當(dāng)出現(xiàn)問題后如何能夠自動(dòng)快速修復(fù)或者自動(dòng)切換等。
新硬件: 軟硬件一體化設(shè)計(jì)
云原生數(shù)據(jù)庫的第三大核心點(diǎn)是軟硬件一體化設(shè)計(jì)。數(shù)據(jù)庫首先是一個(gè)系統(tǒng),而系統(tǒng)就需要能夠安全高效地使用有限的硬件資源。所以數(shù)據(jù)庫系統(tǒng)的設(shè)計(jì)和發(fā)展一定是和硬件性能和發(fā)展緊密相關(guān)的,我們不能夠面對(duì)硬件的變化而堅(jiān)持舊有數(shù)據(jù)庫設(shè)計(jì)不改變,比如 NVM 出來之后就可能對(duì)傳統(tǒng)的數(shù)據(jù)庫設(shè)計(jì)有一些沖擊。而新硬件所帶來的變化也是數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)需要考慮的。
RDMA、NVM 以及 GPU/FPGA 等新硬件或者架構(gòu)的出現(xiàn),對(duì)于數(shù)據(jù)庫的設(shè)計(jì)都會(huì)提供新的思路。
高可用
高可用是云原生最基本的要求之一,上云的用戶勢(shì)必不希望業(yè)務(wù)出現(xiàn)中斷。高可用最簡(jiǎn)單的解決方案就是冗余,可以做 Table 級(jí)別的冗余,也可以做 Partition 級(jí)別的冗余。無論是使用哪一種,基本上都是三副本,甚至更多的時(shí)候需要做四副本或者五副本,比如金融級(jí)別的高可用可能需要做兩地三中心或者兩地四中心。
對(duì)于高可用的多副本而言,如何保證副本之間的數(shù)據(jù)一致性?在數(shù)據(jù)庫里面有一個(gè)經(jīng)典的CAP理論,其理論結(jié)果是在 Consistency、Availability 和 Partition Tolerant 三者之間只能選擇兩個(gè)。現(xiàn)在大家的一般選擇都是 C+P,同時(shí)對(duì)于 A 而言,通過三副本技術(shù)和分布式一致性協(xié)議,使得 A 達(dá)到6個(gè)9或者7個(gè)9,這樣基本上就做到了100%的 CAP。
云原生數(shù)據(jù)庫 POLARDB:極致彈性+兼容性 為海量數(shù)據(jù)和海量并發(fā)而生前面介紹了數(shù)據(jù)庫市場(chǎng)背景和云原生數(shù)據(jù)庫的基本要素,接下來我將結(jié)合阿里云 POLARDB 以及 AnalyticDB 兩款數(shù)據(jù)庫系統(tǒng),分享以上技術(shù)的具體落地情況。POLARDB 是阿里云的云原生數(shù)據(jù)庫,目前已有非常深厚的技術(shù)積累。我們?cè)赩LDB 2018,SIGMOD 2019等國(guó)際學(xué)術(shù)會(huì)議上發(fā)表了相關(guān)論文,主要介紹存儲(chǔ)引擎等方面的技術(shù)創(chuàng)新。
POLARDB 采用共享存儲(chǔ)架構(gòu),一寫多讀。共享存儲(chǔ)架構(gòu)有多個(gè)優(yōu)勢(shì),首先是計(jì)算和存儲(chǔ)分離,計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)可以分開實(shí)現(xiàn)彈性縮擴(kuò)容;其次,POLARDB 突破了 MySQL、PG 等數(shù)據(jù)庫對(duì)于單節(jié)點(diǎn)規(guī)格和可擴(kuò)展性的限定,能夠?qū)崿F(xiàn) 100TB 存儲(chǔ)容量以及每個(gè)節(jié)點(diǎn)100萬 QPS 的性能;此外,POLARDB 能夠提供極致的彈性能力,備份恢復(fù)能力也有很大提升。在存儲(chǔ)層,每個(gè)數(shù)據(jù)塊都采用三副本高可用技術(shù),同時(shí)對(duì)于 Raft 協(xié)議進(jìn)行了修改,通過實(shí)現(xiàn)并行式的 Raft 協(xié)議保證了三副本數(shù)據(jù)塊之間的數(shù)據(jù)一致性,提供了金融級(jí)高可用。POLARDB 還能做到100%兼容 MySQL 以及 PG 等數(shù)據(jù)庫生態(tài),可以幫助用戶實(shí)現(xiàn)無感知的應(yīng)用遷移。
由于底層是共享的分布式存儲(chǔ),PolarDB 屬于 Active-Active 的架構(gòu),主節(jié)點(diǎn)負(fù)責(zé)寫入數(shù)據(jù),從節(jié)點(diǎn)負(fù)責(zé)讀取數(shù)據(jù),因此,對(duì)于進(jìn)入數(shù)據(jù)庫的事務(wù)而言,主備節(jié)點(diǎn)都處于Active 狀態(tài),其好處在于通過一份物理存儲(chǔ)避免了在主從之間不停地做數(shù)據(jù)同步。
具體而言,POLARDB 有一個(gè) PolarProxy,也就是前面的網(wǎng)關(guān)代理,下面有 POLARDB 的內(nèi)核以及 PolarFS,最下面對(duì)接的是 PolarStore,利用 RDMA 網(wǎng)絡(luò)管理底層的分布式共享存儲(chǔ)。PolarProxy 會(huì)對(duì)客戶需求做分發(fā),將寫請(qǐng)求分配到主節(jié)點(diǎn),而對(duì)于讀請(qǐng)求而言,則會(huì)根據(jù)負(fù)載均衡以及讀節(jié)點(diǎn)的狀態(tài)實(shí)現(xiàn)對(duì)于讀請(qǐng)求的分配,這樣就能夠盡可能地實(shí)現(xiàn)資源的最大化利用以及性能的提升。
POLARDB 共享存儲(chǔ)采用分布式+三副本。其中 Primary 節(jié)點(diǎn)負(fù)責(zé)寫,其他節(jié)點(diǎn)負(fù)責(zé)讀,其下層是 PolarStore,每部分都會(huì)有三副本的備份,通過分布式一致性協(xié)議保證數(shù)據(jù)一致性。這樣設(shè)計(jì)的優(yōu)勢(shì)在于能夠?qū)崿F(xiàn)存儲(chǔ)與計(jì)算分離,同時(shí)能夠做到無鎖備份,所以備份可做到秒級(jí)。
在一寫多讀的情況下,POLARDB 能夠?qū)崿F(xiàn)快速伸縮。舉例而言,從2核 vCPU 升級(jí)到32核或者從兩個(gè)節(jié)點(diǎn)擴(kuò)展到4個(gè)節(jié)點(diǎn),都能夠在5分鐘之內(nèi)生效。存儲(chǔ)和計(jì)算分離能夠帶來的另一大好處是降低成本,因?yàn)榇鎯?chǔ)和計(jì)算節(jié)點(diǎn)可以獨(dú)立地進(jìn)行彈性伸縮,充分體現(xiàn)成本優(yōu)勢(shì)。
下圖展示了 POLARDB 如何利用物理日志實(shí)現(xiàn)持續(xù)恢復(fù)。左側(cè)是傳統(tǒng)數(shù)據(jù)庫的架構(gòu),而在 POLARDB 里面,由于采用了共享存儲(chǔ),因此可基本保留類似傳統(tǒng)數(shù)據(jù)庫利用物理日志進(jìn)行恢復(fù)的過程,通過共享存儲(chǔ)實(shí)現(xiàn)持續(xù)恢復(fù),做事務(wù)的 Snapshot 恢復(fù)。
對(duì)比一下,如果 MySQL 做主備架構(gòu),首先需要在主庫里面有一個(gè)邏輯日志和物理日志,在備庫里面要重放主庫的邏輯日志,然后再按照主庫的方式做邏輯日志和物理日志。而在 POLARDB 里面,因?yàn)槭枪蚕泶鎯?chǔ),可直接通過一份日志實(shí)現(xiàn)數(shù)據(jù)恢復(fù),備庫能夠直接將所需要的數(shù)據(jù)恢復(fù)出來,而不需要去重放主庫的邏輯日志。
POLARDB一寫多讀集群的另一大優(yōu)勢(shì)是動(dòng)態(tài) DDL 的支持。在 MySQL 架構(gòu)下,如要對(duì)數(shù)據(jù)的 Schema 進(jìn)行修改,需要通過 Binlog 去 Replay 到備庫,因此備庫會(huì)存在Blocking 的階段,需要一定時(shí)間 Replay 動(dòng)態(tài)的 DDL。而在 POLARDB共享存儲(chǔ)架構(gòu)下,所有 Schema 信息以及 metadata 均以表的形式直接存儲(chǔ)在存儲(chǔ)引擎里面,只要主庫改完了,那么備庫的元信息也實(shí)時(shí)同步更新,因此不會(huì)存在 Blocking 的過程。
POLARDB 的 Proxy 最主要的作用就是做讀寫分離、負(fù)載均衡、高可用切換以及安全防護(hù)等。POLARDB 是一寫多讀架構(gòu),當(dāng)請(qǐng)求進(jìn)來之后,需要進(jìn)行讀寫的判斷,將寫請(qǐng)求分發(fā)到寫節(jié)點(diǎn),將讀請(qǐng)求分發(fā)到讀節(jié)點(diǎn)上去,并且對(duì)于讀請(qǐng)求做一定的負(fù)載均衡。這樣就能保證會(huì)話的一致性,并且徹底解決了讀不到最新數(shù)據(jù)的問題。
無損彈性是 POLARDB 監(jiān)控的模塊之一。分布式存儲(chǔ)需要知道分配多少磁盤量 /Chunk,POLARDB 會(huì)監(jiān)控未使用的 Chunk 量。比如當(dāng)可用量低于30%的時(shí)候,就會(huì)在后臺(tái)自動(dòng)地對(duì)其進(jìn)行擴(kuò)容,這使得應(yīng)用基本不受影響,可連續(xù)寫數(shù)據(jù)。
對(duì)于云數(shù)據(jù)庫 POLARDB 而言,以上技術(shù)帶來的最大優(yōu)勢(shì)是極致的彈性。這里我們以一個(gè)具體的客戶案例進(jìn)行說明。如下圖所示,紅線部分指離線資源的消耗情況,這些成本是客戶無論如何都需要付出的,而其上面的部分則是計(jì)算資源的需求。
比如客戶在3、4月有新品上市,5月還有促銷活動(dòng),這兩個(gè)時(shí)期計(jì)算需求會(huì)非常大。如按照傳統(tǒng)架構(gòu)方式,可能需要在新品上市之前就將容量彈到更大的規(guī)模,并且保持這樣的水位,到了后面的促銷階段又需要彈到更高的規(guī)格,成本非常高昂。但如果能夠做到極致彈性,比如 POLARDB 的存儲(chǔ)與計(jì)算分離,實(shí)現(xiàn)快速彈性擴(kuò)容,那么用戶就只需在藍(lán)色方塊出現(xiàn)之前將容量彈上去,之后再彈下來即可,這樣就能大幅降低成本。
除了云原生數(shù)據(jù)庫 POLARDB ,阿里云數(shù)據(jù)庫團(tuán)隊(duì)在其他方向還有眾多探索。
分布式版本 POLARDB-X : 高并發(fā)+跨域高可用 支持水平拓展如果企業(yè)需要極致的 Scale out 能力,像阿里巴巴以及傳統(tǒng)行業(yè)中的銀行、電力等對(duì)高并發(fā)、海量數(shù)據(jù)支撐要求極高的用戶,共享存儲(chǔ)架構(gòu)只能支持彈至十幾個(gè)節(jié)點(diǎn),肯定是不夠的。因此,阿里云數(shù)據(jù)庫團(tuán)隊(duì)也采用 Shared Nothing 做水平拓展,將Shared Nothing 與 Shared Storage 相結(jié)合,形成 POLARDB-X 。POLARDB-X 支持金融級(jí)跨可用區(qū)數(shù)據(jù)強(qiáng)一致, 對(duì)支持海量數(shù)據(jù)下的高并發(fā)事務(wù)處理有著極好的性能表現(xiàn)。目前,POLARDB-X 在阿里內(nèi)部已上線應(yīng)用,利用存儲(chǔ)計(jì)算分離、硬件加速、分布式事務(wù)處理和分布式查詢優(yōu)化等技術(shù),成功支持了在雙11這樣的場(chǎng)景下阿里巴巴所有業(yè)務(wù)核心鏈路數(shù)據(jù)庫洪峰的挑戰(zhàn),我們后續(xù)將推出商業(yè)化版本,敬請(qǐng)期待。
OLAP 數(shù)據(jù)庫標(biāo)桿—— AnalyticDB:海量數(shù)據(jù) 實(shí)時(shí)高并發(fā)在線分析此外在 OLAP 分析型數(shù)據(jù)庫方向,阿里云數(shù)據(jù)庫團(tuán)隊(duì)自主研發(fā)了數(shù)據(jù)庫產(chǎn)品——AnalyticDB,在阿里云的公有云和專有云上均有售賣。AnalyticDB 擁有幾大核心架構(gòu)特點(diǎn):
行列混存引擎,能夠支持高吞吐寫入和高并發(fā)查詢;
支持海量數(shù)據(jù)處理,對(duì)于海量數(shù)據(jù)能實(shí)現(xiàn)秒級(jí)分析,完美支持多表、中文以及復(fù)雜分析;
利用向量化技術(shù),支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的融合處理。
近日,AnalyticDB 打榜 TPC-DS,在性價(jià)比方面達(dá)到了全球第一,通過了 TPC 官方的嚴(yán)苛認(rèn)證。同時(shí),介紹 AnalyticDB 系統(tǒng)的論文即將在 VLDB 2019 會(huì)議上展現(xiàn)。AnalyticDB 的常用應(yīng)用場(chǎng)景是從 OLTP 應(yīng)用我們的數(shù)據(jù)傳輸與同步工具 DTS 至AnalyticDB 進(jìn)行實(shí)時(shí)的數(shù)據(jù)分析。
自治數(shù)據(jù)庫平臺(tái):智能調(diào)參上線 iBTune (individualized Buffer Tuning)
云原生數(shù)據(jù)庫的特點(diǎn)之一是自治化,阿里云內(nèi)部有個(gè)平臺(tái)叫 SDDP(Self-Driving Database Platform——自治化數(shù)據(jù)庫平臺(tái)),SDDP 會(huì)對(duì)各個(gè)數(shù)據(jù)庫實(shí)例進(jìn)行實(shí)時(shí)的性能數(shù)據(jù)采集,并使用機(jī)器學(xué)習(xí)方法建模進(jìn)行實(shí)時(shí)調(diào)配。
iBTune 的基本思想是,每個(gè)數(shù)據(jù)庫實(shí)例都包含一個(gè) Buffer Size,傳統(tǒng)數(shù)據(jù)庫里面的Buffer Size 是提前分配好的,不能變化。而在大型企業(yè)里,Buffer 是一個(gè)資源池,需要消耗內(nèi)存,因此希望做到彈性自動(dòng)調(diào)配每個(gè)實(shí)例里的 BufferSize。比如淘寶商品庫的數(shù)據(jù)庫實(shí)例晚上不需要那么大的 Buffer,那么就可以自動(dòng)將其 Buffer Size 彈下來,到早上再自動(dòng)彈上去,同時(shí)要求不影響其 RT。為了滿足上述需求并進(jìn)行自動(dòng)Buffer 優(yōu)化,阿里云數(shù)據(jù)庫團(tuán)隊(duì)構(gòu)建了 iBTune 系統(tǒng),目前監(jiān)控近 7000個(gè)數(shù)據(jù)庫實(shí)例,通過長(zhǎng)期運(yùn)營(yíng),可平均節(jié)省20TB 內(nèi)存。介紹 iBTune 項(xiàng)目的核心技術(shù)論文也發(fā)表在了今年的 VLDB 2019大會(huì)上。
安全上云是關(guān)鍵 多重加密護(hù)航數(shù)據(jù)安全云上的數(shù)據(jù)安全是非常重要的內(nèi)容,阿里云數(shù)據(jù)庫團(tuán)隊(duì)在數(shù)據(jù)安全方面也做了大量的工作。首先,數(shù)據(jù)落盤加密,在數(shù)據(jù)存儲(chǔ)的時(shí)候就進(jìn)行加密。此外,阿里云數(shù)據(jù)庫也支持 BYOK,用戶可以將自己的密鑰拿到云上來實(shí)現(xiàn)落盤加密以及傳輸級(jí)別的加密。未來,阿里云數(shù)據(jù)庫還將在內(nèi)存處理時(shí)實(shí)現(xiàn)全程加密,對(duì)日志實(shí)現(xiàn)可信驗(yàn)證等。
阿里云企業(yè)級(jí)數(shù)據(jù)庫云服務(wù):全方位運(yùn)維 全鏈路布局阿里云數(shù)據(jù)庫按照工具產(chǎn)品、引擎產(chǎn)品以及運(yùn)營(yíng)管控的全程數(shù)據(jù)庫產(chǎn)品分類提供服務(wù)。下圖展現(xiàn)的是阿里云——云數(shù)據(jù)庫常用鏈路,通過 DTS 工具將線下數(shù)據(jù)庫遷移到線上,基于數(shù)據(jù)需求/分類,分發(fā)至關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫以及 AnalyticDB 等。
阿里云數(shù)據(jù)庫:客戶第一,一切價(jià)值來自于服務(wù)用戶目前 POLARDB 數(shù)據(jù)庫的增勢(shì)迅猛,已經(jīng)服務(wù)于通用行業(yè)、互聯(lián)網(wǎng)金融、游戲、教育、新零售、多媒體等多個(gè)領(lǐng)域的龍頭企業(yè)。
而 AnalyticDB 在分析型數(shù)據(jù)庫市場(chǎng)也有非常出眾的表現(xiàn),支持實(shí)時(shí)分析以及可視化應(yīng)用。
基于阿里云數(shù)據(jù)庫技術(shù),阿里巴巴支持了城市大腦等一系列關(guān)鍵項(xiàng)目及云上云下的大量客戶。截止目前為止,阿里云數(shù)據(jù)庫已經(jīng)累計(jì)支持了近40萬數(shù)據(jù)庫實(shí)例成功上云。
云原生是數(shù)據(jù)庫的新戰(zhàn)場(chǎng),它為發(fā)展了40多年的數(shù)據(jù)庫行業(yè)帶來了許多令人激動(dòng)的新挑戰(zhàn)和新機(jī)遇,阿里巴巴希望與國(guó)內(nèi)外數(shù)據(jù)庫行業(yè)的各位技術(shù)同仁一起,將數(shù)據(jù)庫技術(shù)推向更高的境界。
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/18035.html
摘要:技術(shù)曲線上升路途中云計(jì)算技術(shù)的變量在技術(shù)戰(zhàn)略理論中技術(shù)曲線是其中的中心環(huán)節(jié)。決定勝負(fù)的關(guān)鍵智能技術(shù)加持,通過實(shí)踐形成代差站在用戶的角度,穩(wěn)定和靈活其對(duì)云技術(shù)的兩大核心需求。前兩天,阿里云召開了一個(gè)慶生性質(zhì)的峰會(huì),用來紀(jì)念它的十年。這次峰會(huì)是去年11月阿里云事業(yè)群升級(jí)為阿里云智能事業(yè)群,阿里集團(tuán)CTO張建鋒(花名:行癲)兼任阿里云智能總裁后的首次公開亮相張建鋒在峰會(huì)上對(duì)阿里云智能的戰(zhàn)略進(jìn)行了全...
摘要:云計(jì)算第一階段結(jié)束,三強(qiáng)各有各的技術(shù)優(yōu)勢(shì)云計(jì)算市場(chǎng)經(jīng)過多年的發(fā)展,其市場(chǎng)格局已基本定型。對(duì)照著這一理論,云計(jì)算技術(shù)的發(fā)展與之高度相似,現(xiàn)在云計(jì)算技術(shù)已經(jīng)來到技術(shù)曲線的上升階段。前兩天,阿里云召開了一個(gè)慶生性質(zhì)的峰會(huì),用來紀(jì)念它的十年。這次峰會(huì)是去年11月阿里云事業(yè)群升級(jí)為阿里云智能事業(yè)群,阿里集團(tuán)CTO張建鋒(花名:行癲)兼任阿里云智能總裁后的首次公開亮相張建鋒在峰會(huì)上對(duì)阿里云智能的戰(zhàn)略進(jìn)行...
摘要:谷歌云在其官方博客上公布,確認(rèn)來自卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)院院長(zhǎng)教授將在年底接任李飛飛的谷歌云負(fù)責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負(fù)責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會(huì)上,李飛飛宣布了兩年前推進(jìn)的Contact Center落地、AutoML推出自然語言和翻譯服務(wù)、TPU 3.0進(jìn)入谷歌云,這意味著谷歌云擁抱AI Fir...
摘要:對(duì)于這個(gè)即將成立的中心谷歌寄予厚望,希望與中國(guó)本土研發(fā)力量合作共同致力于人工智能領(lǐng)域的研究。年月,人工智能入選年度中國(guó)媒體十大流行語。原文鏈接谷歌中國(guó)中心成立,人工智能勢(shì)不可擋鏈接顯示不了,放上原文二維碼,侵刪 昨日,谷歌在上海舉辦了一年一度的Google中國(guó)開發(fā)者大會(huì)。在本屆大會(huì)上,谷歌云首席科學(xué)家李飛飛宣布了一個(gè)重磅消息,即在北京將成立谷歌AI中國(guó)中心。對(duì)于這個(gè)即將成立的AI中心谷...
摘要:據(jù)阿里云官方消息報(bào)道,兩次理論計(jì)算機(jī)最高獎(jiǎng)哥德爾獎(jiǎng)得主匈牙利裔美國(guó)計(jì)算機(jī)科學(xué)家馬里奧塞格德入職阿里巴巴達(dá)摩院位于西雅圖的阿里云量子實(shí)驗(yàn)室。據(jù)阿里云官方消息報(bào)道,兩次理論計(jì)算機(jī)最高獎(jiǎng)哥德爾獎(jiǎng)得主、匈牙利裔美國(guó)計(jì)算機(jī)科學(xué)家馬里奧·塞格德(Mario Szegedy)入職阿里巴巴達(dá)摩院位于西雅圖的阿里云量子實(shí)驗(yàn)室(AQL)。馬里奧·塞格德出生于盛產(chǎn)科學(xué)家的國(guó)度匈牙利,研究領(lǐng)域包括量子計(jì)算和計(jì)算復(fù)雜...
閱讀 2311·2021-11-15 11:38
閱讀 2439·2021-11-15 11:37
閱讀 2542·2021-08-24 10:00
閱讀 2900·2019-08-30 15:56
閱讀 1259·2019-08-30 15:53
閱讀 3694·2019-08-29 18:43
閱讀 2929·2019-08-29 17:01
閱讀 3254·2019-08-29 16:25