国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

spark系列-結構化數據流-數據源

IT那活兒 / 1227人閱讀
spark系列-結構化數據流-數據源

點擊上方“IT那活兒”,關注后了解更多內容,不管IT什么活兒,干就完了!!!

簡  介


自spark2.0之后,DataFrame和DataSet可以表示靜態有界數據也可以表示無界流數據,可以使用相同入口點SparkSession從流源創建DataFrame/DataSet。可以通過spark.readStream()來創建流。
實現端到端一次傳輸是結構化數據流設計的目標之一,為了實現這一目標,我們設計了數據源,接收器和執行引擎,以可靠的跟蹤處理進度,從而可以通過重新啟動或重新處理來處理任何類型的故障。
每個數據源都有偏移量(例如kafka)來跟蹤流中的讀取位置,執行引擎使用檢查點(checkpoint)和預寫日志(write-ahead logs)記錄每次觸發后正在處理數據的偏移范圍,接收器使用冪等接受,這樣結構化數據流就會保證端到端一次性傳輸。


內置數據源


1. File source:讀取目錄中的文件,將按照文件修改時間進行處理,如果設置latestFirst,則處理文件順序將顛倒,支持的文件格式有text、csv、json、orc、parquet,請注意文件必須以原子方式放置在目錄中,大多數文件系統中可以通過文件移動操作來實現。
2. Kafka source:讀取kafka數據,兼容kafka broker0.10.0或更高版本。
3. Socket source(用于測試):從socket連接中讀取數據,監聽socket套接字,只能用于測試,因為不支持端到端一次傳輸保證。
4. Rate source(用于測試):以每秒指定的行數生成數據,每個輸出行包含時間戳和值。其中,timestamp是包含消息分派時間的時間戳類型,value是包含消息計數的Long類型,從0開始作為第一行。此源用于測試和基準測試。


案  例


創建socket 流。
創建文件流。
可以通過DF.isStreaming來判斷數據集是否是流數據。
自spark 3.1開始,也支持根據DataStreamReader.table()來創建結構化數據流。
當讀取目錄時如果存在key=value形式的子目錄時,將自動遞歸到這些目錄中并發生分區,查詢啟動時組成分區方案的目錄必須存在,必須保持靜態,例如當/data/year=2015存在時,添加/data/year=2016是沒問題的,改變分區列是無效的,例如增加目錄/data/date=2016-04。




本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團隊)

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129582.html

相關文章

  • Spark 』4. spark 之 RDD

    摘要:是設計用來表示數據集的一種數據結構。而正因為滿足了這么多特性,所以把叫做,中文叫做彈性分布式數據集。按照這篇論文中文譯文的解釋,窄依賴是指子的每個分區依賴于常數個父分區即與數據規模無關寬依賴指子的每個分區依賴于所有父分區。 原文鏈接 寫在前面 本系列是綜合了自己在學習spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是...

    timger 評論0 收藏0
  • Spark 』2. spark 基本概念解析

    摘要:原文基本概念解析寫在前面本系列是綜合了自己在學習過程中的理解記錄對參考文章中的一些理解個人實踐過程中的一些心得而來。是項目組設計用來表示數據集的一種數據結構。 原文:『 Spark 』2. spark 基本概念解析 寫在前面 本系列是綜合了自己在學習spark過程中的理解記錄 + 對參考文章中的一些理解 + 個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學習...

    Luosunce 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<