『 Spark 』1. spark 簡介

G9YH 發(fā)布于2019-07-31 10:50 / 810人閱讀

摘要：原文鏈接簡介寫在前面本系列是綜合了自己在學(xué)習(xí)過程中的理解記錄對參考文章中的一些理解個人實踐過程中的一些心得而來。其次，本系列是基于目前最新的系列開始的，目前的更新速度很快，記錄一下版本好還是必要的。

原文鏈接：『 Spark 』1. spark 簡介

寫在前面

本系列是綜合了自己在學(xué)習(xí)spark過程中的理解記錄＋對參考文章中的一些理解＋個人實踐spark過程中的一些心得而來。寫這樣一個系列僅僅是為了梳理個人學(xué)習(xí)spark的筆記記錄，并非為了做什么教程，所以一切以個人理解梳理為主，沒有必要的細節(jié)就不會記錄了。若想深入了解，最好閱讀參考文章和官方文檔。

其次，本系列是基于目前最新的 spark 1.6.0 系列開始的，spark 目前的更新速度很快，記錄一下版本好還是必要的。
最后，如果各位覺得內(nèi)容有誤，歡迎留言備注，所有留言 24 小時內(nèi)必定回復(fù)，非常感謝。
Tips: 如果插圖看起來不明顯，可以：1. 放大網(wǎng)頁；2. 新標簽中打開圖片，查看原圖哦。

1. 如何向別人介紹 spark

Apache Spark? is a fast and general engine for large-scale data processing.

Apache Spark is a fast and general-purpose cluster computing system.
It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs.
It also supports a rich set of higher-level tools including :

Spark SQL for SQL and structured data processing, extends to DataFrames and DataSets

MLlib for machine learning

GraphX for graph processing

Spark Streaming for stream data processing

2. spark 誕生的一些背景

Spark started in 2009, open sourced 2010, unlike the various specialized systems[hadoop, storm], Spark’s goal was to :

generalize MapReduce to support new apps within same engine

it"s perfectly compatible with hadoop, can run on Hadoop, Mesos, standalone, or in the cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3.

speed up iteration computing over hadoop.

use memory + disk instead of disk as data storage medium

design a new programming modal, RDD, which make the data processing more graceful [RDD transformation, action, distributed jobs, stages and tasks]

3. 為何選用 spark

designed, implemented and used as libs, instead of specialized systems;

much more useful and maintainable

from history, it is designed and improved upon hadoop and storm, it has perfect genes;

documents, community, products and trends;

it provides sql, dataframes, datasets, machine learning lib, graph computing lib and activitily growth 3-party lib, easy to use, cover lots of use cases in lots field;

it provides ad-hoc exploring, which boost your data exploring and pre-processing and help you build your data ETL, processing job;

4. Next

下一篇，簡單介紹 spark 里必須深刻理解的基本概念。

參考文章

Intro to Apache Spark

introducing spark

本系列文章鏈接

『 Spark 』1. spark 簡介

『 Spark 』2. spark 基本概念解析

『 Spark 』3. spark 編程模式

『 Spark 』4. spark 之 RDD

『 Spark 』5. 這些年，你不能錯過的 spark 學(xué)習(xí)資源

『 Spark 』6. 深入研究 spark 運行原理之 job, stage, task

『 Spark 』7. 使用 Spark DataFrame 進行大數(shù)據(jù)分析

云服務(wù)器 GPU云服務(wù)器 spark簡介 spark和spark Spark面試題（七）——Spark程序 spark?

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/44202.html

發(fā)表評論

登陸后可評論

0條評論

G9YH

男|高級講師

我要關(guān)注我要私信

TA的文章

STM32學(xué)習(xí)筆記第二章 STM32資源介紹

閱讀 1879·2021-09-27 13:35
怎么畫一條0.5px的邊

閱讀 3433·2019-08-30 14:16
CSS -webkit-box-orient: vertical屬性編譯后丟失問題

閱讀 2489·2019-08-30 10:52
瀏覽器兼容性問題

閱讀 868·2019-08-29 16:35
前端每日實戰(zhàn)：18# 視頻演示如何用純 CSS 創(chuàng)作 404 文字變形為 NON 文字的交互特效

閱讀 1420·2019-08-29 15:22
JavaScript紅寶書筆記（五）---引用類型

閱讀 3647·2019-08-23 18:21
多個請求下 loading 的展示與關(guān)閉

閱讀 3138·2019-08-23 18:00
初識vue ssr(nuxt.js) ---- 持續(xù)更新

閱讀 3127·2019-08-23 16:50

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

『 Spark 』1. spark 簡介

相關(guān)文章

大數(shù)據(jù)入門指南（GitHub開源項目）

**『 Spark 』5. 這些年，你不能錯過的 spark 學(xué)習(xí)資源**

發(fā)表評論

0條評論

G9YH

男|高級講師

TA的文章

STM32學(xué)習(xí)筆記第二章 STM32資源介紹

怎么畫一條0.5px的邊

CSS -webkit-box-orient: vertical屬性編譯后丟失問題

瀏覽器兼容性問題

前端每日實戰(zhàn)：18# 視頻演示如何用純 CSS 創(chuàng)作 404 文字變形為 NON 文字的交互特效

JavaScript紅寶書筆記（五）---引用類型

多個請求下 loading 的展示與關(guān)閉

初識vue ssr(nuxt.js) ---- 持續(xù)更新

最新活動