spark Dstreams-常見操作

IT那活兒發布于2023-01-11 13:20 / 2324人閱讀

spark Dstreams-常見操作

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了?。?！

01

轉換操作

與RDD類似，轉換允許修改輸入數據流中的數據。數據流支持普通Spark RDD上的許多轉換。

下面是一些常見的例子：

02

UpdateStateByKey 操作

UpdateStateByKey操作可以讓你使用新信息不斷更新狀態的同時保持任意的狀態，操作起來有兩步：

1）定義狀態-狀態可以是任意數據類型；

2）定義狀態更新函數-使用函數指定如何使用以前的狀態和輸入流中的新值更新狀態。

在每個批次中spark將會對現有key應用狀態更新函數，而不管他們是否在批次中有新數據，如果更新函數返回為none，則鍵值對會進行消除。

假設你想維護文本數據流中每個單詞的運行計數，在這里運行計數是狀態，他是一個整數，函數定義如下：

def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
val newCount = ... // add the new values with the previous running count to get the new count
Some(newCount)}
val runningCounts = pairs.updateStateByKey[Int](updateFunction _)

將為每個單詞調用更新函數，newValues的序列為(word, 1)鍵值對，runningCount為序列的先前的計數。

請注意，使用updateStateByKey需要配置檢查點目錄。

03

Transform 操作

transform操作（和其延伸transformWith）允許任何RDD-to-RDD的函數應用于DStream，他可應用與任何未在數據流API公開的RDD操作，例如數據流中的每個批與另一個數據集連接的功能在DStream API中沒有直接公開，但是，你可以使用輕松的使用transform來實現這一點，這提供了非常強大的可能性。

例如，可以通過將輸入流與垃圾郵件信息連接起來，然后根據這些進行數據過濾，從而進行實時數據清理。

請注意在每個批處理間隔中都會調用提供的函數，像時變RDD操作，分區數，廣播變量等可以再批之間進行修改。

04

窗口操作

Spark streaming提供了窗口操作，窗口操作允許你在滑動數據窗口中應用轉換，示意圖：

如圖所示，每次窗口在源數據流上滑動時，位于窗口內的源RDD將被組合并操作，以生成窗口化數據流的RDD。在這種特定情況下，該操作應用于數據的最后3個時間單位，并按2個時間單位滑動。

這表明任何窗口操作都需要指定兩個參數。

1）Window length：窗口長度；

2）Sliding interval：執行窗口操作的時間間隔。

這兩個參數必須是源數據批間隔的倍數。

舉一個例子來說明窗口操作，假如你想統計過去30秒的單詞統計結果，窗口每10秒滑動一次，那么可以這樣寫：

下面是一些常用的window操作，所有這些操作都包括兩個參數(windowLength,slideInterval)：

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

云服務器 GPU云服務器數組常見操作常見數據庫的操作練習常見的服務器操作系統 spark操作hbase

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/129614.html

SparkStreaming概述

摘要：但在企業中存在很多實時性處理的需求，例如雙十一的京東阿里，通常會做一個實時的數據大屏，顯示實時訂單。這種情況下，對數據實時性要求較高，僅僅能夠容忍到延遲分鐘或幾秒鐘。1 Spark Streaming是什么它是一個可擴展，高吞吐具有容錯性的流式計算框架吞吐量：單位時間內成功傳輸數據的數量之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務，數據一般都是在固定位置上...

Tecode 2022-06-28 18:59 評論0 收藏0
Spark Streaming學習筆記

摘要：輸入和接收器輸入代表從某種流式數據源流入的數據流。文件數據流可以從任何兼容包括等的文件系統，創建方式如下將監視該目錄，并處理該目錄下任何新建的文件目前還不支持嵌套目錄。會被一個個依次推入隊列，而則會依次以數據流形式處理這些的數據。特點： Spark Streaming能夠實現對實時數據流的流式處理，并具有很好的可擴展性、高吞吐量和容錯性。 Spark Streaming支持從多種數...

陸斌 2019-08-15 10:38 評論0 收藏0
Spark入門階段一之掃盲筆記

摘要：同時集成了機器學習類庫。基于計算框架，將的分布式計算應用到機器學習領域。提供了一個簡單的聲明方法指定機器學習任務，并且動態地選擇最優的學習算法。宣稱其性能是的多倍。介紹 spark是分布式并行數據處理框架與mapreduce的區別： mapreduce通常將中間結果放在hdfs上，spark是基于內存并行大數據框架，中間結果放在內存，對于迭代數據spark效率更高，mapred...

starsfun 2019-08-15 10:37 評論0 收藏0

發表評論

登陸后可評論

0條評論

IT那活兒

男|高級講師

我要關注我要私信

TA的文章

消息中間件故障分析一例

閱讀 1347·2023-01-11 13:20
RAC雙節點crash回復一例

閱讀 1685·2023-01-11 13:20
ORA-600處理一例

閱讀 1133·2023-01-11 13:20
雙節點RAC實例2 HANG 故障分析一例

閱讀 1860·2023-01-11 13:20
RAC集群節點1重啟分析一例

閱讀 4101·2023-01-11 13:20
CRS啟動報錯CRS-1656處理分享

閱讀 2705·2023-01-11 13:20
oracle 12CR2打補丁報錯處理一例

閱讀 1386·2023-01-11 13:20
分布式緩存組件故障分析及監控優化

閱讀 3599·2023-01-11 13:20

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

spark Dstreams-常見操作

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了?。?！

01

02

03

04

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

相關文章

SparkStreaming概述

Spark Streaming學習筆記

Spark入門階段一之掃盲筆記

發表評論

0條評論

IT那活兒

男|高級講師

TA的文章

消息中間件故障分析一例

RAC雙節點crash回復一例

ORA-600處理一例

雙節點RAC實例2 HANG 故障分析一例

RAC集群節點1重啟分析一例

CRS啟動報錯CRS-1656處理分享

oracle 12CR2打補丁報錯處理一例

分布式緩存組件故障分析及監控優化

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

spark Dstreams-常見操作

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了?。?！

01

02

03

04

本文作者：潘宗昊

本文來源：IT那活兒（上海新炬王翦團隊）

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

點擊上方“IT那活兒”，關注后了解更多內容，不管IT什么活兒，干就完了?。?！