SparkStreaming概述

Tecode 發布于2022-06-28 18:59 / 2011人閱讀

摘要：但在企業中存在很多實時性處理的需求，例如雙十一的京東阿里，通常會做一個實時的數據大屏，顯示實時訂單。這種情況下，對數據實時性要求較高，僅僅能夠容忍到延遲分鐘或幾秒鐘。

1 Spark Streaming是什么
它是一個可擴展，高吞吐具有容錯性的流式計算框架

吞吐量：單位時間內成功傳輸數據的數量

之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務，數據一般都是在固定位置上，通常我們寫好一個腳本，每天定時去處理數據，計算，保存數據結果。這類任務通常是T+1(一天一個任務)，對實時性要求不高。

但在企業中存在很多實時性處理的需求，例如：雙十一的京東阿里，通常會做一個實時的數據大屏，顯示實時訂單。這種情況下，對數據實時性要求較高，僅僅能夠容忍到延遲1分鐘或幾秒鐘。

實時計算框架對比

Storm

流式計算框架
以record為單位處理數據
也支持micro-batch方式（Trident）

Spark

批處理計算框架
以RDD為單位處理數據
支持micro-batch流式處理數據（Spark Streaming）

對比：

吞吐量：Spark Streaming優于Storm
延遲：Spark Streaming差于Storm

2 Spark Streaming的組件
Streaming Context

一旦一個Context已經啟動(調用了Streaming Context的start())就不能有新的流算子(Dstream)建立或者是添加到context中
一旦一個context已經停止不能重新啟動(Streaming Context調用了stop方法之后就不能再次調 start())
在JVM(java虛擬機)中同一時間只能有一個Streaming Context處于活躍狀態一個SparkContext創建一個Streaming Context
在Streaming Context上調用Stop方法也會關閉SparkContext對象如果只想僅關閉Streaming Context對象設置stop()的可選參數為false
一個SparkContext對象可以重復利用去創建多個Streaming Context對象(不關閉SparkContext前提下) 但是需要關一個再開下一個

DStream (離散流)

代表一個連續的數據流
在內部 DStream由一系列連續的RDD組成
DStreams中的每個RDD都包含確定時間間隔內的數據
任何對DStreams的操作都轉換成了對DStreams隱含的RDD的操作
數據源

GPU云服務器云服務器 sparkstreaming 分詞概述概述流程概述

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/126030.html

大數據分析技術與應用

摘要：人工智能四常用大數據分析技術常見的大數據分析技術主要由以下幾部分構成分布式的文件系統存儲海量的非結構化數據例如等分布式的離線計算系統，對業務數據批量處理。 CDA數據分析研究院原創作品一、大數據概念大數據（big data），指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信...

shinezejian 2019-06-26 18:41 評論0 收藏0

發表評論

登陸后可評論

0條評論

Tecode

男|高級講師

我要關注我要私信

TA的文章

tensorflow指定cpu

閱讀 3514·2023-04-25 20:09
香港云服務器這幾天網絡有沒有丟包嚴重

閱讀 3720·2022-06-28 19:00
EPC單機掛載UHOST-RSSD高速磁盤

閱讀 3035·2022-06-28 19:00
GPU活動使用TIPS

閱讀 3058·2022-06-28 19:00
為科研量身定制，UCloud推出“云極”高性能計算EPC

閱讀 3132·2022-06-28 19:00
UCloud 2021年終特惠已開啟，快杰O型ARM服務器上海節點重磅上線！

閱讀 2859·2022-06-28 19:00
“懂運維、精運營、重服務” UCloud發布混合云多云管理平臺UCMP

閱讀 3014·2022-06-28 19:00
軟件定義存儲，UCloudStor存儲?體機強勢登場

閱讀 2610·2022-06-28 19:00

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

SparkStreaming概述

相關文章

大數據分析技術與應用

發表評論

0條評論

Tecode

男|高級講師

TA的文章

tensorflow指定cpu

香港云服務器這幾天網絡有沒有丟包嚴重

EPC單機掛載UHOST-RSSD高速磁盤

GPU活動使用TIPS

為科研量身定制，UCloud推出“云極”高性能計算EPC

UCloud 2021年終特惠已開啟，快杰O型ARM服務器上海節點重磅上線！

“懂運維、精運營、重服務” UCloud發布混合云多云管理平臺UCMP

軟件定義存儲，UCloudStor存儲?體機強勢登場

最新活動