国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

時間序列數(shù)據(jù)的處理

helloworldcoding / 848人閱讀

摘要:現(xiàn)在的時序數(shù)據(jù)庫底層存儲一般用的是單值模型。現(xiàn)在一般的時序數(shù)據(jù)庫中,主鍵是會默認(rèn)生成的,即所有的組合。

摘要: 隨著云計算和IoT的發(fā)展,時間序列數(shù)據(jù)的數(shù)據(jù)量急劇膨脹,高效的分析時間序列數(shù)據(jù),使之產(chǎn)生業(yè)務(wù)價值成為一個熱門話題。阿里巴巴數(shù)據(jù)庫事業(yè)部的HiTSDB團(tuán)隊(duì)為您分享時間序列數(shù)據(jù)的計算分析的一般方法以及優(yōu)化手段。

演講嘉賓簡介:鐘宇(悠你) 阿里巴巴 數(shù)據(jù)庫高級專家,時間序列數(shù)據(jù)庫HiTSDB的研發(fā)負(fù)責(zé)人。在數(shù)據(jù)庫、操作系統(tǒng)、函數(shù)式編程等方面有豐富的經(jīng)驗(yàn)。

本次直播視頻PPT,戳這里!

本次分享主要分為以下幾個方面:

時序數(shù)據(jù)庫的應(yīng)用場景

面向分析的時序數(shù)據(jù)存儲

時序數(shù)據(jù)庫的時序計算

時序數(shù)據(jù)庫的計算引擎

時序數(shù)據(jù)庫展望

一,時序數(shù)據(jù)庫的應(yīng)用場景

時序數(shù)據(jù)就是在時間上分布的一系列數(shù)值。生活中常見的時序數(shù)據(jù)包括,股票價格、廣告數(shù)據(jù)、氣溫變化、網(wǎng)站的PV/UV、個人健康數(shù)據(jù)、工業(yè)傳感器數(shù)據(jù)、服務(wù)器系統(tǒng)監(jiān)控數(shù)據(jù)(比如CPU和內(nèi)存占用率)、車聯(lián)網(wǎng)等。

下面介紹IoT領(lǐng)域中的時間序列數(shù)據(jù)案例。IoT給時序數(shù)據(jù)處理帶來了很大的挑戰(zhàn)。這是由于IoT領(lǐng)域帶來了海量的時間序列數(shù)據(jù):

成千上萬的設(shè)備

數(shù)以百萬計的傳感器

每秒產(chǎn)生百萬條數(shù)據(jù)

24×7全年無休(區(qū)別于電商數(shù)據(jù),電商數(shù)據(jù)存在高峰和低谷,因此可以利用低谷的時間段進(jìn)行數(shù)據(jù)庫維護(hù),數(shù)據(jù)備份等工作)

多維度查詢/聚合

最新數(shù)據(jù)實(shí)時可查

IoT中的時間序列數(shù)據(jù)處理主要包括以下四步:

采樣

傳輸

存儲

分析

二,面向分析的時序數(shù)據(jù)存儲

下面介紹時間序列數(shù)據(jù)的一個例子。這是一個新能源風(fēng)力發(fā)電機(jī)的例子。每個風(fēng)力發(fā)電機(jī)上有兩個傳感器,一個是功率,一個是風(fēng)速,并定時進(jìn)行采樣。三個設(shè)備,一共會產(chǎn)生六個時間序列。每個發(fā)電機(jī)都有多種標(biāo)簽,這就會產(chǎn)生多個數(shù)據(jù)維度。比如,基于生產(chǎn)廠商這個維度,對功率做聚合。或基于風(fēng)場,對風(fēng)速做聚合等。現(xiàn)在的時序數(shù)據(jù)庫底層存儲一般用的是單值模型。因?yàn)槎嘀的P鸵部梢砸粚σ坏挠成涞絾沃的P停@個過程可能會導(dǎo)致性能損失。但是,在對外提供服務(wù)時,單值模型和多值模型都有應(yīng)用。比如,OpenTSDB就是用單值模型對外提供服務(wù)的,而influxDB則是多值模型。但這兩種數(shù)據(jù)庫的底層存儲用的都是單值模型。

現(xiàn)實(shí)中的應(yīng)用案例事實(shí)上會更復(fù)雜。像風(fēng)力發(fā)電機(jī)這樣的案例,它的設(shè)備和傳感器的數(shù)量,我們可以認(rèn)為是穩(wěn)中有增的,不會發(fā)生特別劇烈的改變。它的數(shù)據(jù)采樣的周期也是嚴(yán)格的定期采樣。下圖是一個工業(yè)案例,以滴滴這樣的運(yùn)營商為例。由于其業(yè)務(wù)特性,其車輛數(shù)量的增長和下降會出現(xiàn)暴漲暴跌。

總體而言,現(xiàn)實(shí)世界的復(fù)雜之處在于:

未必是總是定時采樣。

時間線可能是高度發(fā)散。以互聯(lián)網(wǎng)廣告為例,在對廣告進(jìn)行采樣時,新廣告的增長和老廣告的下線速度很快,時間線就很有可能時高度發(fā)散的。

主鍵和schema修改。前面例子中提到的Tag,可以對應(yīng)數(shù)據(jù)庫的schema,在實(shí)際業(yè)務(wù)中可能會頻繁改動。現(xiàn)在一般的時序數(shù)據(jù)庫中,主鍵是會默認(rèn)生成的,即所有tag的組合。因此,在新增tag時,主鍵就會改變,則變?yōu)榱肆硪粋€對象。

分布式系統(tǒng)和片鍵。由于數(shù)據(jù)量很大,因此需要對數(shù)據(jù)進(jìn)行分片,片鍵的選擇也是一個難以抉擇的問題。

數(shù)據(jù)類型。以剛才提到的單值模型為例。假設(shè)有一個三維的加速度傳感器,同一時間點(diǎn)上會產(chǎn)生三個關(guān)聯(lián)的數(shù)據(jù),這時的數(shù)據(jù)類型就應(yīng)該是一個維度為3的矢量,即一個新的數(shù)據(jù)類型。

需要對每個數(shù)據(jù)點(diǎn)的值做過濾。假設(shè)每輛車上都裝有GPS傳感器,假設(shè)要統(tǒng)計某一時間段內(nèi),一公里內(nèi),出現(xiàn)了哪些車輛,分別由哪些廠商生產(chǎn)。此時需要對地理位置進(jìn)行過濾。

下圖是過去提出利用HiTSDB對時序問題的解決方案。在這種方案中,未解決發(fā)散問題,較高維數(shù)據(jù)和值過濾問題。用倒排索引來存儲設(shè)備信息,并把時間點(diǎn)上的數(shù)據(jù)存在高壓縮比緩存中。這兩者結(jié)合,實(shí)際上將邏輯上的一個表分成了兩個表,用以解決多維度查詢和聚合的問題。但使用這種方案依然有很多問題無法解決。

下面是HiTSDB的一些優(yōu)勢和不足:

優(yōu)勢:

·倒排索引可以很方便的篩選設(shè)備;

·高壓縮比緩存具有很高的寫入和讀取能力

·方便的時間切片

·無schema,靈活方便支持各種數(shù)據(jù)模型

不足:

·在非定時采樣場景下可能導(dǎo)致數(shù)據(jù)稀疏

·值沒有索引,因此值過濾只能線性過濾

· Schema改動導(dǎo)致時間線變動

·廣播查限制了QPS

在此基礎(chǔ)上,進(jìn)行了演進(jìn),如下圖。

引入了Adaptive schema,即如果未指定一個數(shù)據(jù)表的schema,則認(rèn)為寫入的第一條數(shù)據(jù)中包含的TagKV即是片鍵也是主鍵,用以確定唯一性以及數(shù)據(jù)會被分片到哪一個節(jié)點(diǎn)上。

壓縮塊也不再是按固定的時間切片了,引入了meta index,用以查詢每個數(shù)據(jù)塊的開始和結(jié)束時間。在一個時間段內(nèi)攢夠了足夠的數(shù)據(jù)后,把整個數(shù)據(jù)塊進(jìn)行壓縮。

參考列存的思路,值索引到壓縮塊。值索引不再像傳統(tǒng)數(shù)據(jù)庫那樣索引到行。

多值索引和空間切分。

三,時序數(shù)據(jù)庫的時序算法

上面所述的存儲結(jié)構(gòu)主要是為了方便進(jìn)行時序數(shù)據(jù)的加工和分析。時序有一些特殊算法。

降采樣和插值:傳感器采樣出的點(diǎn)可能特別密集,在分析趨勢時,會希望進(jìn)行過濾。通過降采樣可以利用一段時間內(nèi)的最小值/最大值/平均值來替代。

·降采樣算法:min/max/avg。

·插值算法:補(bǔ)零/線性/貝塞爾曲線

聚合計算:由于采樣是精確到每個傳感器的,但有時需要的數(shù)據(jù)并不僅是精確到某個傳感器的。比如,希望比較兩個不同廠商的發(fā)電機(jī),哪個在風(fēng)場中產(chǎn)生了更多的電。那么就需要對傳感器數(shù)據(jù)進(jìn)行聚合。

·邏輯聚合:min/max

·算術(shù)聚合:sum/count/avg

·統(tǒng)計:histogram/percentile/Standard Deviation

時間軸計算

·變化率:rate

對時序數(shù)據(jù)進(jìn)行加工的分析的重要目的是發(fā)現(xiàn)異常。下面介紹在異常檢測中如何定義問題。從異常檢測的角度來看時間序列數(shù)據(jù),分為三個維度:time, object, metric。

固定兩個維度,只考慮一個維度的數(shù)據(jù)。

·T: only consider time dim,單一對象單一metric即單個時間序列):spikes & dips、趨勢變化、范圍變化。

·M: only consider metric,找出不符合metric之間相互關(guān)系的數(shù)據(jù)。

·O: only consider object,找出與眾不同的對象。

固定一個維度,只考慮兩個維度的數(shù)據(jù)。

·MT:固定對象,考慮多個時間序列(每個對應(yīng)一個metric),并找出其相互變化方式不同的作為異常。

·MO:不考慮時間特性,考慮多個對象且每個對象都可以用多個metric表示,如何從中找出不同的對象。

·TO:多個對象單一metric,找出變化趨勢不同的對象。

在異常檢測中,面向問題有如下計算方法:

內(nèi)置函數(shù)

·高壓縮比緩存直接作為窗口緩存

·對于滿足數(shù)據(jù)局部性的問題,直接在高壓縮比緩存上運(yùn)行

·結(jié)果直接寫回

·定時調(diào)度 vs 數(shù)據(jù)觸發(fā)

外置計算

·定時查詢 vs 流式讀取

·使用同樣的查詢語言執(zhí)行查詢或定義數(shù)據(jù)源

·數(shù)據(jù)庫內(nèi)置時間窗口

·數(shù)據(jù)流的觸發(fā)機(jī)制

針對時序數(shù)據(jù),又可以將計算分為預(yù)計算和后計算。

預(yù)計算:事先將結(jié)果計算完并存儲。這是流計算中常用的方式。其特點(diǎn)如下:

·數(shù)據(jù)存儲量低

·查詢性能高

·需要手工編寫計算過程

·新的計算無法立即查看結(jié)果

·靈活性差

·不保存原始數(shù)據(jù)

后計算:先存數(shù)據(jù),需要時進(jìn)行計算。這是數(shù)據(jù)庫中常用的方式。其特點(diǎn)如下:

·數(shù)據(jù)存儲量大

·查詢/聚合性能瓶頸

·任何查詢都可以隨時獲得結(jié)果

·使用DSL進(jìn)行查詢

·靈活性好

·保存原始數(shù)據(jù)

四,時序數(shù)據(jù)庫的計算引擎

基于兩種計算的特點(diǎn),在時序數(shù)據(jù)處理中,我們使用的是一種混合架構(gòu)。有數(shù)據(jù)進(jìn)來時,有預(yù)聚合規(guī)則,如果符合規(guī)則就進(jìn)行預(yù)聚合,把數(shù)據(jù)寫入數(shù)據(jù)庫中。在查詢時,如果符合預(yù)聚合規(guī)則,就可以很快得到結(jié)果。對于不滿足預(yù)聚合規(guī)則的數(shù)據(jù),會將其從數(shù)據(jù)庫中讀出,進(jìn)行后聚合。中間的聚合引擎是一種類似流式計算的架構(gòu),數(shù)據(jù)庫或者數(shù)據(jù)源都可以作為數(shù)據(jù)源。數(shù)據(jù)源的來源對于引擎是不可見的,它的功能是接收數(shù)據(jù),計算并產(chǎn)生結(jié)果。因此,預(yù)計算和后計算都可以利用這一種邏輯進(jìn)行,并放在同一個運(yùn)行環(huán)境中。

在邏輯上,上圖是可行的。但實(shí)際上,如果要用這種方式進(jìn)行流計算,由于數(shù)據(jù)源可能出現(xiàn)亂序等問題,就必須要利用窗口函數(shù),將數(shù)據(jù)放入時間窗口中整理好,但這種緩存的效率其實(shí)并不高,實(shí)際情況下,是按照下圖這種邏輯進(jìn)行的。數(shù)據(jù)會被寫進(jìn)數(shù)據(jù)庫,由于數(shù)據(jù)庫有高壓縮比緩存,是專門針對時序數(shù)據(jù)的。當(dāng)一個時間窗口結(jié)束時,利用持續(xù)查詢來進(jìn)行預(yù)計算。它會將高壓縮比緩存中的數(shù)據(jù)拿一部分出來做預(yù)聚合再寫回數(shù)據(jù)庫中。這樣,這個緩存機(jī)制就替代了原來的時間窗口,節(jié)省了很多內(nèi)存,降低了很多計算開銷。

使用類似于流的架構(gòu)的好處是可以將其很快的接入異構(gòu)計算的環(huán)境中。正如大家熟知的,流計算可以轉(zhuǎn)化為一個DAG。結(jié)合前面提到的降采樣和聚合的例子。以一個加法為例,可以把數(shù)據(jù)切成三片放入不同的工作節(jié)點(diǎn)上計算,計算完后再進(jìn)行一次聚合輸出數(shù)據(jù)。工作節(jié)點(diǎn)既可能是CPU也可能是GPU。接入異構(gòu)計算的環(huán)境中,可以加速數(shù)據(jù)的計算。

五,時序數(shù)據(jù)庫展望

下圖是對未來架構(gòu)的展望。

存儲層

·類似lambda架構(gòu),基于一系列不可修改的文件

·針對不同的場景提供不同的存儲格式

計算層

·流式架構(gòu),基于內(nèi)存的異構(gòu)計算,自動填充熱數(shù)據(jù)

·數(shù)據(jù)分片,支持高QPS讀取

索引

·全局的索引 vs 文件局部索引

大數(shù)據(jù)

·可以直接在大量的文件上跑MR,也可以通過高壓縮比緩存以流的方式訂閱數(shù)據(jù)

未來,這個數(shù)據(jù)庫將會演化成時序數(shù)據(jù)平臺。它可以兼容SQL生態(tài),一系列大數(shù)據(jù)平臺,以及融合邊緣計算。在部署時可以在云和邊緣部署一整套的管理架構(gòu),同時把用SQL描述的規(guī)則下放到云板和邊緣板上,形成一整套數(shù)據(jù)處理方案。

POLARDB :https://www.aliyun.com/produc...
HBASE: https://www.aliyun.com/produc...

云數(shù)據(jù)庫RDS PPAS 版: https://www.aliyun.com/produc...

原文鏈接

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/17752.html

相關(guān)文章

  • Flink實(shí)戰(zhàn)(七) - Time & Windows編程

    摘要:在這種情況下,清除僅指窗口中的數(shù)據(jù)元,而不是窗口元數(shù)據(jù)。紫色圓圈表示流的數(shù)據(jù)元,這些數(shù)據(jù)元由某個鍵在這種情況下是用戶,用戶和用戶劃分。 0 相關(guān)源碼 掌握Flink中三種常用的Time處理方式,掌握Flink中滾動窗口以及滑動窗口的使用,了解Flink中的watermark。 Flink 在流處理工程中支持不同的時間概念。 1 處理時間(Processing time) 執(zhí)行相應(yīng)算子...

    Meils 評論0 收藏0
  • Apache Beam分窗與觸發(fā)器

    摘要:需要注意的是和方法生成的觸發(fā)器是連續(xù)的而不是一次性的。其他的還有一次性觸發(fā)器將一次性觸發(fā)器變?yōu)檫B續(xù)型觸發(fā)器,觸發(fā)后再次等待觸發(fā)。例如與一起用可以實(shí)現(xiàn)每個數(shù)據(jù)到達(dá)后的分鐘進(jìn)行處理,經(jīng)常用于全局窗口,可以用觸發(fā)器來設(shè)置停止條件。 本文參考Apache Beam官方編程手冊 可以結(jié)合官方的Mobile Game 代碼閱讀本文。 在默認(rèn)情況下,Apache Beam是不分窗的,也就是采用Gl...

    NickZhou 評論0 收藏0
  • [譯] 存儲和處理時間序列數(shù)據(jù)(“Time Series Databases”第三章)

    摘要:并且這種格式?jīng)]有事先對時間序列的數(shù)量做任何限制。使用格式來存儲時間序列數(shù)據(jù)的兩種可能的。其中存放了時間列序列列和數(shù)值列三列。隨著數(shù)據(jù)規(guī)模的繼續(xù)增長,基于的應(yīng)用程序越來越不適合處理這樣規(guī)模的時間序列數(shù)據(jù)了。 就像我們在前一章提到的,一個時間序列是一系列數(shù)值,每個數(shù)值都伴隨著一個時間值,代表數(shù)據(jù)被記錄時的時間。時間序列數(shù)據(jù)存入后就很少再需要修改了,查詢時經(jīng)常是查詢一個連續(xù)時間段的數(shù)據(jù),也可...

    EastWoodYang 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<