国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

探索Greenplum的實(shí)踐,了解新一代大數(shù)據(jù)處理利器

supernavy / 3158人閱讀

摘要:上有主節(jié)點(diǎn)和從節(jié)點(diǎn)兩部分,兩者主要的功能是生成查詢計(jì)劃并派發(fā),以及協(xié)調(diào)并行計(jì)算,同時(shí)在上保存著,這個(gè)全局目錄存著一組數(shù)據(jù)庫系統(tǒng)本身所具有的元數(shù)據(jù)的系統(tǒng)表。

前言:近年來,互聯(lián)網(wǎng)的快速發(fā)展積累了海量大數(shù)據(jù),而在這些大數(shù)據(jù)的處理上,不同技術(shù)棧所具備的性能也有所不同,如何快速有效地處理這些龐大的數(shù)據(jù)倉,成為很多運(yùn)營者為之苦惱的問題!隨著Greenplum的異軍突起,以往大數(shù)據(jù)倉庫所面臨的很多問題都得到了有效解決,Greenplum也成為新一代海量數(shù)據(jù)處理典型代表。本文結(jié)合個(gè)推數(shù)據(jù)研發(fā)工程師李樹桓在大數(shù)據(jù)領(lǐng)域的實(shí)踐,對處理龐大的數(shù)據(jù)量時(shí),如何選擇有效的技術(shù)棧做了深入研究,探索出Greenplum是當(dāng)前處理大數(shù)據(jù)倉較為高效穩(wěn)定的利器。

一、Greenplum誕生的背景

時(shí)間回到2002年,那時(shí)整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)量正處于快速增長期,一方面?zhèn)鹘y(tǒng)數(shù)據(jù)庫難以滿足當(dāng)前的計(jì)算需求,另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)庫大多基于SMP架構(gòu),這種架構(gòu)最大的一個(gè)特點(diǎn)是共享所有資源,擴(kuò)展性能差,因此面對日益增長的數(shù)據(jù)量,難以繼續(xù)支撐,需要一種具有分布式并行數(shù)據(jù)計(jì)算能力的數(shù)據(jù)庫,Greenplum正是在此背景下誕生了。

和傳統(tǒng)數(shù)據(jù)庫的SMP架構(gòu)不同,Greenplum主要基于MPP架構(gòu),這是由多個(gè)服務(wù)器通過節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)連接而成的系統(tǒng),每個(gè)節(jié)點(diǎn)只訪問自己的本地資源(包括內(nèi)存、存儲(chǔ)等),是一種完全無共享(Share Nothing)結(jié)構(gòu),擴(kuò)展能力較之前有明顯提升。

二、解讀 Greenplum架構(gòu)

Greenplum主要由Master主節(jié)點(diǎn)和Interconnect網(wǎng)絡(luò)層以及負(fù)責(zé)數(shù)據(jù)存儲(chǔ)和計(jì)算的多個(gè)節(jié)點(diǎn)共同組成。

Master上有主節(jié)點(diǎn)和從節(jié)點(diǎn)兩部分,兩者主要的功能是生成查詢計(jì)劃并派發(fā),以及協(xié)調(diào)Segment并行計(jì)算,同時(shí)在Master上保存著global system catalog,這個(gè)全局目錄存著一組Greenplum數(shù)據(jù)庫系統(tǒng)本身所具有的元數(shù)據(jù)的系統(tǒng)表。需要說明的是Master本身不參與數(shù)據(jù)交互,Greenplum所有的并行任務(wù)都是在Segment的數(shù)據(jù)節(jié)點(diǎn)上完成的,因此,Master節(jié)點(diǎn)不會(huì)成為數(shù)據(jù)庫的性能瓶頸。

中間的網(wǎng)絡(luò)層Interconnect,主要負(fù)責(zé)并行查詢計(jì)劃生產(chǎn)和Dispatch分發(fā)以及協(xié)調(diào)節(jié)點(diǎn)上QE執(zhí)行器的并行工作, 正是因?yàn)镮nterconnect的存在,Greenplum才能實(shí)現(xiàn)對同一個(gè)集群中多個(gè)PostgreSQL實(shí)例的高效協(xié)同和并行計(jì)算。

整個(gè)結(jié)構(gòu)圖下方負(fù)責(zé)數(shù)據(jù)存儲(chǔ)和計(jì)算的每個(gè)節(jié)點(diǎn)上又有多個(gè)實(shí)例,每個(gè)實(shí)例都是一個(gè)PostgreSQL數(shù)據(jù)庫,這些實(shí)例共享節(jié)點(diǎn)的IO和CPU。PostgreSQL在穩(wěn)定性和性能方面較為先進(jìn),同時(shí)又有豐富的語法支持,滿足了Greenplum的功能需要。

三、了解Greenplum優(yōu)勢

Greenplum之所以能成為處理海量大數(shù)據(jù)的有效工具,與其所具備的幾大優(yōu)勢密不可分。
優(yōu)勢一:計(jì)算效率提升
Greenplum的數(shù)據(jù)管道可以高效地將數(shù)據(jù)從磁盤傳輸?shù)紺PU,而目前市面上常用的計(jì)算引擎SPARK在傳輸數(shù)據(jù)時(shí),則需要為每個(gè)并發(fā)查詢分配一個(gè)內(nèi)存,這對大型數(shù)據(jù)集的查詢十分不利,而Greenplum所具備的實(shí)時(shí)查詢功能,能夠有效對大數(shù)據(jù)集進(jìn)行計(jì)算。
優(yōu)勢二:擴(kuò)展性能增強(qiáng)
Greenplum基于的MPP架構(gòu),節(jié)點(diǎn)之間完全不共享,同時(shí)又可以達(dá)到并行查詢,因此在進(jìn)行線性擴(kuò)展時(shí),數(shù)據(jù)規(guī)模可以達(dá)到PB級別。目前,Greenplum已經(jīng)實(shí)現(xiàn)了開源,并且社區(qū)生態(tài)活躍,對于使用者而言,也會(huì)覺得更為可靠。
優(yōu)勢三:功能性優(yōu)化
Greenplum可以支持復(fù)雜的SQL查詢,大幅簡化了數(shù)據(jù)的操作和交互過程。而目前流行的HAWQ、Spark SQL、Impala等技術(shù)基本都基于MapReduce進(jìn)行的優(yōu)化,雖然部分也使用了SQL查詢,但是對SQL的支持十分有限。

四、Greenplum的容錯(cuò)機(jī)制

Greenplum數(shù)據(jù)庫簡稱GPDB,它擁有豐富的特性,支持多級容錯(cuò)機(jī)制和高可用。
1)主節(jié)點(diǎn)高可用:為了避免主節(jié)點(diǎn)單點(diǎn)故障,特別設(shè)置一個(gè)主節(jié)點(diǎn)的副本(稱為 Standby Master),通過流復(fù)制技術(shù)實(shí)現(xiàn)兩者同步復(fù)制,當(dāng)主節(jié)點(diǎn)發(fā)生故障時(shí),從節(jié)點(diǎn)可以成為主節(jié)點(diǎn),從而完成用戶請求并協(xié)調(diào)查詢執(zhí)行。
2)數(shù)據(jù)節(jié)點(diǎn)高可用:每個(gè)數(shù)據(jù)節(jié)點(diǎn)都可以配備一個(gè)鏡像,它們之間通過文件操作級別的同步來實(shí)現(xiàn)數(shù)據(jù)的同步復(fù)制(稱為filerep技術(shù))。故障檢測進(jìn)程(ftsprobe)會(huì)定期發(fā)送心跳給各個(gè)數(shù)據(jù)節(jié)點(diǎn),當(dāng)某個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),GPDB會(huì)自動(dòng)進(jìn)行故障切換。
3)網(wǎng)絡(luò)高可用:為了避免網(wǎng)絡(luò)的單點(diǎn)故障,每個(gè)主機(jī)會(huì)配置多個(gè)網(wǎng)口,并使用多個(gè)交換機(jī),避免網(wǎng)絡(luò)故障時(shí)造成整個(gè)服務(wù)器不可用。

同時(shí),GPDB具有圖形化的性能監(jiān)控功能,基于此功能,用戶可以確定數(shù)據(jù)庫當(dāng)前的運(yùn)行情況和歷史查詢信息,同時(shí)跟蹤系統(tǒng)使用情況和資源信息。

五、 Greenplum在業(yè)務(wù)場景中的應(yīng)用

個(gè)推在大數(shù)據(jù)領(lǐng)域深耕多年,在處理龐大的數(shù)據(jù)倉的過程中,也在不斷進(jìn)行優(yōu)化和更新技術(shù)棧,在進(jìn)行技術(shù)選型時(shí),針對不同的技術(shù)棧做了如下對比:

總得來說,Greenplum幫助開發(fā)者有效解決了處理數(shù)據(jù)庫時(shí)遇到的一些難點(diǎn),比如跨天去重、用戶自定義維度、復(fù)雜的SQL查詢等問題,同時(shí),也方便開發(fā)者直接在原始數(shù)據(jù)上進(jìn)行實(shí)時(shí)查詢,減少了數(shù)據(jù)聚合過程中的遺失,當(dāng)然,強(qiáng)大的Greenplum仍存在著一些問題需要去完善,例如在節(jié)點(diǎn)擴(kuò)展的過程中元數(shù)據(jù)的管理問題,分布式數(shù)據(jù)庫在擴(kuò)展節(jié)點(diǎn)時(shí)會(huì)帶來數(shù)據(jù)一致性,擴(kuò)展的過程中有時(shí)會(huì)出現(xiàn)元數(shù)據(jù)混亂的情況等等,好在Greenplum有很多優(yōu)秀的運(yùn)維工具,能夠幫我們在發(fā)生問題及時(shí)進(jìn)行排查,更好的保障業(yè)務(wù)的穩(wěn)定性。但是,盡管Greenplum在處理大數(shù)據(jù)方面的優(yōu)勢比較明顯,對開發(fā)者來說,還是要根據(jù)自身需求選擇相應(yīng)的技術(shù)棧。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/97901.html

相關(guān)文章

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<