要不,我們簡單聊聊Hadoop與它的生態圈

FuisonDesign 發布于2019-07-30 18:43 / 1753人閱讀

摘要：的組成在的框架版本中最核心的設計是其中是的縮寫是個分布式文件系統實際操作與如系統的操作類似。另外不是非要依附在上才能生存它可以與其他的分布式文件系統進行集成來運作。

實際上,關于Hadoop及其生態系統的文章或者書籍已經汗牛充棟,在2016年大數據這個概念興起的時候,有幸于能進入數據行業。雖然,在這2年里,并沒有達到自己最初的期望,不過還是跨出了那么一步。
這里,我們簡單的聊聊Hadoop及其生態圈(系統),不做太深入的探討。

Hadoop是什么?

在互聯網上經常看到Hadoop和大數據的名詞,那么有時候有沒有想過什么是Hadoop呢?
Hadoop是什么,是1個使用Java編寫的分布式系統架構。它讓用戶在不了解分布式底層細節的情況下,可以開發出分布式程序,并充分利用集群進行高速運算和存儲。
現在,你應該知道Hadoop是什么了吧。

Hadoop的組成

在Hadoop的框架版本1.0中,最核心的設計是:

HDFS

MapReduce

其中HDFS是Hadoop Distributed File System的縮寫,是1個分布式文件系統,實際操作與POSIX(如Unix、Linux)系統的操作類似。這個文件系統提供了海量數據的存儲,可以部署在低廉的硬件上。這對企業來說是1個很不錯的選擇,在硬件成本上降低了不少卻完成了任務。
而MapReduce主要是為海量數據提供了計算。這樣,通過Hadoop這個架構,我們就可以實現對海量數據的存儲、訪問與計算。
而在Hadoop版本2.0中,其核心設計演變為:

HDFS

YARN

在這里,MapReduce被YARN所替代。YARN是1個Hadoop的資源管理器,它為上層應用提供了統一的資源管理和調度。它的引入,為集群在利用率、資源統一管理和數據共享等方面帶來了巨大的好處。此時的Hadoop就不再是1個簡單MapReduce處理的架構了。

Hadoop適合怎樣的應用場景?

對于Hadoop適應的應用場景的問題,我們先來說下它不適合的場景:

Hadoop不適合實時計算與分析方面的應用

Hadoop不適合大量小文件處理場景

Hadoop不適合低延遲數據訪問場景

Hadoop不適合多用戶寫入的場景

由于Hadoop在設計的最初被設計為針對超大文件及流式數據訪問,因此Hadoop適合如下一些場景:

日志處理

非實時的數據分析

海量存儲,比如ETL

廣告推薦

離線計算

需要注意的是,Hadoop只是1個架構。具體的應用場景,還需要借助它生態圈的其他工具來完善。

Hadoop的生態圈有哪些?

Hadoop的生態圈主要包括:

Hive,提供數據倉庫的數據分析

Pig,提供數據流處理

Mahout,提供數據挖掘相關算法

HBase,提供分布式、實時、高維數據庫

Sqoop,提供關系型數據庫數據與Hadoop的導入導出

Flume,提供日志收集

Zookeeper,提供分布式協作服務

其結構如下圖所示:

Hadoop有哪些替代產品?

由于Hadoop設計的問題以及企業業務的要求,存在如下一些替代Hadoop的產品:

Spark

Flink

disco

其中以Spark作為代表,最有潛力可以替代Hadoop。但是需要注意的是,Hadoop只是1個工具,存在其他替代品是很正常的。但是,這并不代表Hadoop會在未來就消失,只是在某些場景上使用的更少一些而已。
畢竟,Hadoop已經比較成熟和穩定,生態也相對完善,因此企業也喜歡應用。

Hadoop與Spark有什么區別?

Spark是另外1個大數據處理框架,相比Hadoop,其將計算數據存儲在內存而不是硬盤,因此計算性能上比Hadoop快很多,可以作為Hadoop的1種補充。
相比Hadoop,Spark更適用于實時處理與分析的場景,另外在Spark中還提供了圖計算GraphX及機器學習的Mlib庫,通用性比Hadoop更強一些。
另外,Spark不是非要依附在Hadoop上才能生存,它可以與其他的分布式文件系統進行集成來運作。對于大數據開發來說,很多情況下是堆積木的1個過程。
對于大數據的技術棧而言,存在多個可選的方案而不是完全替代的方案。畢竟在軟件工程項目中,是要考慮成本的,我們需要根據項目的經費選擇合適的技術方案。

學習Hadoop能拿高薪嗎?

任何1門高薪的職業,必定有其不可替代的技術門檻和技能要求,比如基金經理,必定是金融行業那么一撮的精英的存在,但是人家也要至少花個1億美金的操練才可能稱為稱職的職業人士。
如果單純覺得學習1個Hadoop就可以拿到高薪,那只能是癡人說夢話。當然,不排除一些培訓機構會打著這樣的幌子讓你去培訓。而要拿到高薪需要具有如下一些條件:

有這樣需求和給得起錢的企業

你具有相關的職業技能

你具有相關的學歷

具備相關面試技巧

在2018年,可以說大家都過得小心翼翼,加薪是1件不容易的事情。伴隨著2018各家廠商的裁員,人們在互聯網的冬天的呼喊中迎來2019年爆竹聲。隨著資本會在2019年逐漸回歸本質,但是要真的想通過大數據拿到高薪還是1件不容易的事情。
據不準確統計,實際上在招聘中很多企業雖然給出了大數據相關的崗位,但是并不代表它能提供給你合適的崗位。很多中小型企業招聘1個職位,實際上很多情況下它也不知道具體的崗位要求是什么,只能在網上搜羅一些關鍵詞進行填寫。可想而言,開出的薪資自然不盡如意。
另外,有些企業只是為了單純的刷新存在感,發布一些招聘職位,而并不打算招聘,為了避免浪費時間,還需要擦亮眼睛。
排除了上述第1個外部原因,需要有這樣需求和給得起前的企業的外因后,那么剩下的內因就是招聘人員自身的水平了。
首先,1家靠譜的企業總有完善的招聘流程,如果自己不是過硬的學歷,比如985院校畢業。那么,要進入大數據行業真的會被拒之門外。另外,要想拿高薪,還需要具備過硬的心理素質和技術能力,而不是我對Hadoop及其生態系統有所了解,就可以輕松進入的。
在大數據行業中,加班加點是常飯,因為數據有時候真的很令人堪憂,自然是逃脫不了的事情。
當然,萬事都不是絕對的。有些企業還是要轉型的,會開設這樣的研發部門,此時還是比較容易進去的。

有必要進入大數據行業嗎?

大數據行業的工作,是1個考驗綜合能力的職位,絕不是網上一些公眾號宣稱的那么神奇和簡單。
如果只是為了高薪而隨意進入1個行業,是件挺危險的事情。如果在事先沒有考慮妥當,完全是為了薪資而不是個人興趣的話,你會很快發現就失去了前行的動力。
無論從事什么崗位,都要不定期的總結和歸納,從而形成自己的知識體系,并擴充自己的軟技能。

原文地址:

http://blog.52sox.com/hadoop-...

USDP大數據平臺 hadoop生態 hadoop生態系統大數據與hadoop生態系統 hadoop簡單實例

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/42947.html

要不,我們簡單聊聊Hadoop與它的生態圈

摘要：的組成在的框架版本中最核心的設計是其中是的縮寫是個分布式文件系統實際操作與如系統的操作類似。另外不是非要依附在上才能生存它可以與其他的分布式文件系統進行集成來運作。實際上,關于Hadoop及其生態系統的文章或者書籍已經汗牛充棟,在2016年大數據這個概念興起的時候,有幸于能進入數據行業。雖然,在這2年里,并沒有達到自己最初的期望,不過還是跨出了那么一步。這里,我們簡單的聊聊Had...

YuboonaZhang 2019-08-16 14:11 評論0 收藏0
聊聊 Python 的內置電池

摘要：二這些內容都很有意思，本文唯獨想聊聊它內置電池。這樣做的預期效果是內置電池會變得輕量小型化高質量，同時三方庫的生態系統也能得到進化。目前，該仍處于草案狀態，但已基本成為社區共識。 showImg(https://segmentfault.com/img/remote/1460000019489233?w=1880&h=1253); 本文原創并首發于公眾號【Python貓】，未經授權，請...

FreeZinG 2019-07-31 10:34 評論0 收藏0
聊聊 Python 的內置電池

摘要：二這些內容都很有意思，本文唯獨想聊聊它內置電池。這樣做的預期效果是內置電池會變得輕量小型化高質量，同時三方庫的生態系統也能得到進化。目前，該仍處于草案狀態，但已基本成為社區共識。 showImg(https://segmentfault.com/img/remote/1460000019489233?w=1880&h=1253); 本文原創并首發于公眾號【Python貓】，未經授權，請...

wapeyang 2019-06-26 18:07 評論0 收藏0