国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

spark系列-結(jié)構(gòu)化數(shù)據(jù)流-基本內(nèi)容

IT那活兒 / 2213人閱讀
spark系列-結(jié)構(gòu)化數(shù)據(jù)流-基本內(nèi)容

點擊上方“IT那活兒”,關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!!!


簡  介


spark結(jié)構(gòu)化數(shù)據(jù)流是可擴展和容錯的,基于spark sql引擎,可以用批處理方法處理結(jié)構(gòu)化數(shù)據(jù)流,spark sql引擎負責(zé)以增量連續(xù)方式運行,并在流數(shù)據(jù)到達進行更新,可以使用scala、java、python或R的DataSet/DataFrame API來表示數(shù)據(jù)流聚合、時間窗口等,通過檢查點、預(yù)寫日志方式實現(xiàn)容錯。
在內(nèi)部默認結(jié)構(gòu)化流數(shù)據(jù)查詢使用微批處理引擎進行處理,其將數(shù)據(jù)流作為一系列小批處理作業(yè),從而實現(xiàn)端到端100毫秒以下的延遲,并保證僅一次容錯。
但是自spark2.3以來,我們引入了一個稱作“Continuous Processing”新的低延遲處理模式,他可以實現(xiàn)端到端一毫秒的低延遲,并且至少一次容錯保證。根據(jù)實際需要可以選擇使用哪一種模式。


編程模型


Structured Streaming的關(guān)鍵是將實時數(shù)據(jù)流作為無邊界的連續(xù)追加的表,這非常像批處理模型,你可以將流處理作為一個靜態(tài)表進行處理。
基本概念
將輸入流作為源數(shù)據(jù)表,每個消息實體作為表的一行追加到表中。
針對輸入表查詢將生成結(jié)果表,每觸發(fā)一次,新的ROW DATA將被追加到輸入表中,然后更新結(jié)果表,不管什么什么時候更新,我們都希望將更新后的數(shù)據(jù)寫入到外部存儲器。


外部存儲器模式


1. Complete Mode:每次觸發(fā)整個結(jié)果表將寫入到外部存儲器。適用場景:適用于聚合查詢輸出的情況。
2. Append Mode:每次次觸發(fā)后追加到結(jié)果表中的新行才會被寫入到外部存儲器,適用場景:默認是這種模式,該模式保證每行只輸出一次,所以適用于結(jié)果表中現(xiàn)有行不會更改的查詢。
在查詢過程中, 如果沒有使用 watermark 機制, 則不能使用聚合操作. 如果使用了 watermark 機制, 則只能使用基于 event-time 的聚合操作。
3. Update Mode:每次觸發(fā)后在結(jié)果表中較上次觸發(fā)后更新或新增的行才會寫入到外部存儲器。如果沒有聚合操作, 則該模式與 append 模式一致. 如果有聚合操作, 則可以基于 watermark 清理過期的狀態(tài)。

請注意結(jié)構(gòu)化數(shù)據(jù)流只讀取最近的可用的數(shù)據(jù)而不是整個數(shù)據(jù)表,然后更新結(jié)果表,然后就丟棄輸入數(shù)據(jù),就是結(jié)構(gòu)化數(shù)據(jù)流只保留處理最新狀態(tài)的數(shù)據(jù)。




本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團隊)


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/129581.html

相關(guān)文章

  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫在前面本系列是綜合了自己在學(xué)習(xí)過程中的理解記錄對參考文章中的一些理解個人實踐過程中的一些心得而來。是項目組設(shè)計用來表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。 原文:『 Spark 』2. spark 基本概念解析 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學(xué)習(xí)...

    Luosunce 評論0 收藏0
  • Spark 』4. spark 之 RDD

    摘要:是設(shè)計用來表示數(shù)據(jù)集的一種數(shù)據(jù)結(jié)構(gòu)。而正因為滿足了這么多特性,所以把叫做,中文叫做彈性分布式數(shù)據(jù)集。按照這篇論文中文譯文的解釋,窄依賴是指子的每個分區(qū)依賴于常數(shù)個父分區(qū)即與數(shù)據(jù)規(guī)模無關(guān)寬依賴指子的每個分區(qū)依賴于所有父分區(qū)。 原文鏈接 寫在前面 本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是...

    timger 評論0 收藏0

發(fā)表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<