摘要:但在企業中存在很多實時性處理的需求,例如雙十一的京東阿里,通常會做一個實時的數據大屏,顯示實時訂單。這種情況下,對數據實時性要求較高,僅僅能夠容忍到延遲分鐘或幾秒鐘。
1 Spark Streaming是什么
它是一個可擴展,高吞吐具有容錯性的流式計算框架
吞吐量:單位時間內成功傳輸數據的數量
之前我們接觸的spark-core和spark-sql都是處理屬于離線批處理任務,數據一般都是在固定位置上,通常我們寫好一個腳本,每天定時去處理數據,計算,保存數據結果。這類任務通常是T+1(一天一個任務),對實時性要求不高。
但在企業中存在很多實時性處理的需求,例如:雙十一的京東阿里,通常會做一個實時的數據大屏,顯示實時訂單。這種情況下,對數據實時性要求較高,僅僅能夠容忍到延遲1分鐘或幾秒鐘。
實時計算框架對比
Storm
Spark
對比:
2 Spark Streaming的組件
Streaming Context
DStream (離散流)
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/126030.html
摘要:人工智能四常用大數據分析技術常見的大數據分析技術主要由以下幾部分構成分布式的文件系統存儲海量的非結構化數據例如等分布式的離線計算系統,對業務數據批量處理。 CDA數據分析研究院原創作品 一、大數據概念 大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信...
閱讀 3514·2023-04-25 20:09
閱讀 3720·2022-06-28 19:00
閱讀 3035·2022-06-28 19:00
閱讀 3058·2022-06-28 19:00
閱讀 3132·2022-06-28 19:00
閱讀 2859·2022-06-28 19:00
閱讀 3014·2022-06-28 19:00
閱讀 2610·2022-06-28 19:00