spark系列-結構化數據流-數據源

IT那活兒發布于2023-01-11 13:20 / 1227人閱讀

spark系列-結構化數據流-數據源

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了！！！

簡介

自spark2.0之后，DataFrame和DataSet可以表示靜態有界數據也可以表示無界流數據，可以使用相同入口點SparkSession從流源創建DataFrame/DataSet。可以通過spark.readStream()來創建流。

實現端到端一次傳輸是結構化數據流設計的目標之一，為了實現這一目標，我們設計了數據源，接收器和執行引擎，以可靠的跟蹤處理進度，從而可以通過重新啟動或重新處理來處理任何類型的故障。

每個數據源都有偏移量（例如kafka）來跟蹤流中的讀取位置，執行引擎使用檢查點（checkpoint）和預寫日志（write-ahead logs）記錄每次觸發后正在處理數據的偏移范圍，接收器使用冪等接受，這樣結構化數據流就會保證端到端一次性傳輸。

內置數據源

1. File source：讀取目錄中的文件，將按照文件修改時間進行處理，如果設置latestFirst，則處理文件順序將顛倒，支持的文件格式有text、csv、json、orc、parquet，請注意文件必須以原子方式放置在目錄中，大多數文件系統中可以通過文件移動操作來實現。

2. Kafka source：讀取kafka數據，兼容kafka broker0.10.0或更高版本。

3. Socket source（用于測試）：從socket連接中讀取數據，監聽socket套接字，只能用于測試，因為不支持端到端一次傳輸保證。

4. Rate source（用于測試）：以每秒指定的行數生成數據，每個輸出行包含時間戳和值。其中，timestamp是包含消息分派時間的時間戳類型，value是包含消息計數的Long類型，從0開始作為第一行。此源用于測試和基準測試。

案例

創建socket 流。

創建文件流。

可以通過DF.isStreaming來判斷數據集是否是流數據。

自spark 3.1開始，也支持根據DataStreamReader.table()來創建結構化數據流。

當讀取目錄時如果存在key=value形式的子目錄時，將自動遞歸到這些目錄中并發生分區，查詢啟動時組成分區方案的目錄必須存在，必須保持靜態，例如當/data/year=2015存在時，添加/data/year=2016是沒問題的，改變分區列是無效的，例如增加目錄/data/date=2016-04。

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

云服務器 GPU云服務器 spark入門實戰系列云數據服務器系列數據分析與數據分析系列教材云計算數據中心系列服務器

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/129582.html

『 Spark 』4. spark 之 RDD

摘要：是設計用來表示數據集的一種數據結構。而正因為滿足了這么多特性，所以把叫做，中文叫做彈性分布式數據集。按照這篇論文中文譯文的解釋，窄依賴是指子的每個分區依賴于常數個父分區即與數據規模無關寬依賴指子的每個分區依賴于所有父分區。原文鏈接寫在前面本系列是綜合了自己在學習spark過程中的理解記錄＋對參考文章中的一些理解＋個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是...

timger 2019-07-25 10:18 評論0 收藏0
『 Spark 』2. spark 基本概念解析

摘要：原文基本概念解析寫在前面本系列是綜合了自己在學習過程中的理解記錄對參考文章中的一些理解個人實踐過程中的一些心得而來。是項目組設計用來表示數據集的一種數據結構。原文：『 Spark 』2. spark 基本概念解析寫在前面本系列是綜合了自己在學習spark過程中的理解記錄＋對參考文章中的一些理解＋個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學習...

Luosunce 2019-07-24 18:38 評論0 收藏0

發表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1346·2023-01-11 13:20
RAC雙節點crash回復一例

閱讀 1684·2023-01-11 13:20
ORA-600處理一例

閱讀 1132·2023-01-11 13:20
雙節點RAC實例2 HANG 故障分析一例

閱讀 1858·2023-01-11 13:20
RAC集群節點1重啟分析一例

閱讀 4100·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2704·2023-01-11 13:20
oracle 12CR2打補丁報錯處理一例

閱讀 1385·2023-01-11 13:20
分布式緩存組件故障分析及監控優化

閱讀 3597·2023-01-11 13:20

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

spark系列-結構化數據流-數據源

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了！！！

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

相關文章

**『 Spark 』4. spark 之 RDD**

**『 Spark 』2. spark 基本概念解析**

發表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節點crash回復一例

ORA-600處理一例

雙節點RAC實例2 HANG 故障分析一例

RAC集群節點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監控優化

最新活動