国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

spark Dstreams-常見操作

IT那活兒 / 2324人閱讀
spark Dstreams-常見操作

點擊上方“IT那活兒”,關注后了解更多內容,不管IT什么活兒,干就完了?。?!



01


轉換操作


與RDD類似,轉換允許修改輸入數據流中的數據。數據流支持普通Spark RDD上的許多轉換。
下面是一些常見的例子:


02


UpdateStateByKey 操作


UpdateStateByKey操作可以讓你使用新信息不斷更新狀態的同時保持任意的狀態,操作起來有兩步:
1)定義狀態-狀態可以是任意數據類型;
2)定義狀態更新函數-使用函數指定如何使用以前的狀態和輸入流中的新值更新狀態。
在每個批次中spark將會對現有key應用狀態更新函數,而不管他們是否在批次中有新數據,如果更新函數返回為none,則鍵值對會進行消除。
假設你想維護文本數據流中每個單詞的運行計數,在這里運行計數是狀態,他是一個整數,函數定義如下:
def updateFunction(newValues: Seq[Int], runningCount: Option[Int]): Option[Int] = {
val newCount = ... // add the new values with the previous running count to get the new count
Some(newCount)}
val runningCounts = pairs.updateStateByKey[Int](updateFunction _)
將為每個單詞調用更新函數,newValues的序列為(word, 1)鍵值對,runningCount為序列的先前的計數。
請注意,使用updateStateByKey需要配置檢查點目錄。


03


Transform 操作


transform操作(和其延伸transformWith)允許任何RDD-to-RDD的函數應用于DStream,他可應用與任何未在數據流API公開的RDD操作,例如數據流中的每個批與另一個數據集連接的功能在DStream API中沒有直接公開,但是,你可以使用輕松的使用transform來實現這一點,這提供了非常強大的可能性。
例如,可以通過將輸入流與垃圾郵件信息連接起來,然后根據這些進行數據過濾,從而進行實時數據清理。
請注意在每個批處理間隔中都會調用提供的函數,像時變RDD操作,分區數,廣播變量等可以再批之間進行修改。


04


窗口操作


Spark streaming提供了窗口操作,窗口操作允許你在滑動數據窗口中應用轉換,示意圖:
如圖所示,每次窗口在源數據流上滑動時,位于窗口內的源RDD將被組合并操作,以生成窗口化數據流的RDD。在這種特定情況下,該操作應用于數據的最后3個時間單位,并按2個時間單位滑動。
這表明任何窗口操作都需要指定兩個參數。
1)Window length:窗口長度;
2)Sliding interval:執行窗口操作的時間間隔。
這兩個參數必須是源數據批間隔的倍數。
舉一個例子來說明窗口操作,假如你想統計過去30秒的單詞統計結果,窗口每10秒滑動一次,那么可以這樣寫:
下面是一些常用的window操作,所有這些操作都包括兩個參數(windowLength,slideInterval):



本文作者:潘宗昊

本文來源:IT那活兒(上海新炬王翦團隊)

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/129614.html

相關文章

  • SparkStreaming概述

    摘要:但在企業中存在很多實時性處理的需求,例如雙十一的京東阿里,通常會做一個實時的數據大屏,顯示實時訂單。這種情況下,對數據實時性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。1 Spark Streaming是什么它是一個可擴展,高吞吐具有容錯性的流式計算框架吞吐量:單位時間內成功傳輸數據的數量之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務,數據一般都是在固定位置上...

    Tecode 評論0 收藏0
  • Spark Streaming學習筆記

    摘要:輸入和接收器輸入代表從某種流式數據源流入的數據流。文件數據流可以從任何兼容包括等的文件系統,創建方式如下將監視該目錄,并處理該目錄下任何新建的文件目前還不支持嵌套目錄。會被一個個依次推入隊列,而則會依次以數據流形式處理這些的數據。 特點: Spark Streaming能夠實現對實時數據流的流式處理,并具有很好的可擴展性、高吞吐量和容錯性。 Spark Streaming支持從多種數...

    陸斌 評論0 收藏0
  • Spark入門階段一之掃盲筆記

    摘要:同時集成了機器學習類庫。基于計算框架,將的分布式計算應用到機器學習領域。提供了一個簡單的聲明方法指定機器學習任務,并且動態地選擇最優的學習算法。宣稱其性能是的多倍。 介紹 spark是分布式并行數據處理框架 與mapreduce的區別: mapreduce通常將中間結果放在hdfs上,spark是基于內存并行大數據框架,中間結果放在內存,對于迭代數據spark效率更高,mapred...

    starsfun 評論0 收藏0

發表評論

0條評論

IT那活兒

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<