摘要:的組成在的框架版本中最核心的設(shè)計(jì)是其中是的縮寫是個(gè)分布式文件系統(tǒng)實(shí)際操作與如系統(tǒng)的操作類似。另外不是非要依附在上才能生存它可以與其他的分布式文件系統(tǒng)進(jìn)行集成來(lái)運(yùn)作。
實(shí)際上,關(guān)于Hadoop及其生態(tài)系統(tǒng)的文章或者書(shū)籍已經(jīng)汗牛充棟,在2016年大數(shù)據(jù)這個(gè)概念興起的時(shí)候,有幸于能進(jìn)入數(shù)據(jù)行業(yè)。雖然,在這2年里,并沒(méi)有達(dá)到自己最初的期望,不過(guò)還是跨出了那么一步。
這里,我們簡(jiǎn)單的聊聊Hadoop及其生態(tài)圈(系統(tǒng)),不做太深入的探討。
在互聯(lián)網(wǎng)上經(jīng)常看到Hadoop和大數(shù)據(jù)的名詞,那么有時(shí)候有沒(méi)有想過(guò)什么是Hadoop呢?
Hadoop是什么,是1個(gè)使用Java編寫的分布式系統(tǒng)架構(gòu)。它讓用戶在不了解分布式底層細(xì)節(jié)的情況下,可以開(kāi)發(fā)出分布式程序,并充分利用集群進(jìn)行高速運(yùn)算和存儲(chǔ)。
現(xiàn)在,你應(yīng)該知道Hadoop是什么了吧。
在Hadoop的框架版本1.0中,最核心的設(shè)計(jì)是:
HDFS
MapReduce
其中HDFS是Hadoop Distributed File System的縮寫,是1個(gè)分布式文件系統(tǒng),實(shí)際操作與POSIX(如Unix、Linux)系統(tǒng)的操作類似。這個(gè)文件系統(tǒng)提供了海量數(shù)據(jù)的存儲(chǔ),可以部署在低廉的硬件上。這對(duì)企業(yè)來(lái)說(shuō)是1個(gè)很不錯(cuò)的選擇,在硬件成本上降低了不少卻完成了任務(wù)。
而MapReduce主要是為海量數(shù)據(jù)提供了計(jì)算。這樣,通過(guò)Hadoop這個(gè)架構(gòu),我們就可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)、訪問(wèn)與計(jì)算。
而在Hadoop版本2.0中,其核心設(shè)計(jì)演變?yōu)?
HDFS
YARN
在這里,MapReduce被YARN所替代。YARN是1個(gè)Hadoop的資源管理器,它為上層應(yīng)用提供了統(tǒng)一的資源管理和調(diào)度。它的引入,為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來(lái)了巨大的好處。此時(shí)的Hadoop就不再是1個(gè)簡(jiǎn)單MapReduce處理的架構(gòu)了。
Hadoop適合怎樣的應(yīng)用場(chǎng)景?對(duì)于Hadoop適應(yīng)的應(yīng)用場(chǎng)景的問(wèn)題,我們先來(lái)說(shuō)下它不適合的場(chǎng)景:
Hadoop不適合實(shí)時(shí)計(jì)算與分析方面的應(yīng)用
Hadoop不適合大量小文件處理場(chǎng)景
Hadoop不適合低延遲數(shù)據(jù)訪問(wèn)場(chǎng)景
Hadoop不適合多用戶寫入的場(chǎng)景
由于Hadoop在設(shè)計(jì)的最初被設(shè)計(jì)為針對(duì)超大文件及流式數(shù)據(jù)訪問(wèn),因此Hadoop適合如下一些場(chǎng)景:
日志處理
非實(shí)時(shí)的數(shù)據(jù)分析
海量存儲(chǔ),比如ETL
廣告推薦
離線計(jì)算
需要注意的是,Hadoop只是1個(gè)架構(gòu)。具體的應(yīng)用場(chǎng)景,還需要借助它生態(tài)圈的其他工具來(lái)完善。
Hadoop的生態(tài)圈有哪些?Hadoop的生態(tài)圈主要包括:
Hive,提供數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析
Pig,提供數(shù)據(jù)流處理
Mahout,提供數(shù)據(jù)挖掘相關(guān)算法
HBase,提供分布式、實(shí)時(shí)、高維數(shù)據(jù)庫(kù)
Sqoop,提供關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)與Hadoop的導(dǎo)入導(dǎo)出
Flume,提供日志收集
Zookeeper,提供分布式協(xié)作服務(wù)
其結(jié)構(gòu)如下圖所示:
Hadoop有哪些替代產(chǎn)品?由于Hadoop設(shè)計(jì)的問(wèn)題以及企業(yè)業(yè)務(wù)的要求,存在如下一些替代Hadoop的產(chǎn)品:
Spark
Flink
disco
其中以Spark作為代表,最有潛力可以替代Hadoop。但是需要注意的是,Hadoop只是1個(gè)工具,存在其他替代品是很正常的。但是,這并不代表Hadoop會(huì)在未來(lái)就消失,只是在某些場(chǎng)景上使用的更少一些而已。
畢竟,Hadoop已經(jīng)比較成熟和穩(wěn)定,生態(tài)也相對(duì)完善,因此企業(yè)也喜歡應(yīng)用。
Spark是另外1個(gè)大數(shù)據(jù)處理框架,相比Hadoop,其將計(jì)算數(shù)據(jù)存儲(chǔ)在內(nèi)存而不是硬盤,因此計(jì)算性能上比Hadoop快很多,可以作為Hadoop的1種補(bǔ)充。
相比Hadoop,Spark更適用于實(shí)時(shí)處理與分析的場(chǎng)景,另外在Spark中還提供了圖計(jì)算GraphX及機(jī)器學(xué)習(xí)的Mlib庫(kù),通用性比Hadoop更強(qiáng)一些。
另外,Spark不是非要依附在Hadoop上才能生存,它可以與其他的分布式文件系統(tǒng)進(jìn)行集成來(lái)運(yùn)作。對(duì)于大數(shù)據(jù)開(kāi)發(fā)來(lái)說(shuō),很多情況下是堆積木的1個(gè)過(guò)程。
對(duì)于大數(shù)據(jù)的技術(shù)棧而言,存在多個(gè)可選的方案而不是完全替代的方案。畢竟在軟件工程項(xiàng)目中,是要考慮成本的,我們需要根據(jù)項(xiàng)目的經(jīng)費(fèi)選擇合適的技術(shù)方案。
任何1門高薪的職業(yè),必定有其不可替代的技術(shù)門檻和技能要求,比如基金經(jīng)理,必定是金融行業(yè)那么一撮的精英的存在,但是人家也要至少花個(gè)1億美金的操練才可能稱為稱職的職業(yè)人士。
如果單純覺(jué)得學(xué)習(xí)1個(gè)Hadoop就可以拿到高薪,那只能是癡人說(shuō)夢(mèng)話。當(dāng)然,不排除一些培訓(xùn)機(jī)構(gòu)會(huì)打著這樣的幌子讓你去培訓(xùn)。而要拿到高薪需要具有如下一些條件:
有這樣需求和給得起錢的企業(yè)
你具有相關(guān)的職業(yè)技能
你具有相關(guān)的學(xué)歷
具備相關(guān)面試技巧
在2018年,可以說(shuō)大家都過(guò)得小心翼翼,加薪是1件不容易的事情。伴隨著2018各家廠商的裁員,人們?cè)诨ヂ?lián)網(wǎng)的冬天的呼喊中迎來(lái)2019年爆竹聲。隨著資本會(huì)在2019年逐漸回歸本質(zhì),但是要真的想通過(guò)大數(shù)據(jù)拿到高薪還是1件不容易的事情。
據(jù)不準(zhǔn)確統(tǒng)計(jì),實(shí)際上在招聘中很多企業(yè)雖然給出了大數(shù)據(jù)相關(guān)的崗位,但是并不代表它能提供給你合適的崗位。很多中小型企業(yè)招聘1個(gè)職位,實(shí)際上很多情況下它也不知道具體的崗位要求是什么,只能在網(wǎng)上搜羅一些關(guān)鍵詞進(jìn)行填寫。可想而言,開(kāi)出的薪資自然不盡如意。
另外,有些企業(yè)只是為了單純的刷新存在感,發(fā)布一些招聘職位,而并不打算招聘,為了避免浪費(fèi)時(shí)間,還需要擦亮眼睛。
排除了上述第1個(gè)外部原因,需要有這樣需求和給得起前的企業(yè)的外因后,那么剩下的內(nèi)因就是招聘人員自身的水平了。
首先,1家靠譜的企業(yè)總有完善的招聘流程,如果自己不是過(guò)硬的學(xué)歷,比如985院校畢業(yè)。那么,要進(jìn)入大數(shù)據(jù)行業(yè)真的會(huì)被拒之門外。另外,要想拿高薪,還需要具備過(guò)硬的心理素質(zhì)和技術(shù)能力,而不是我對(duì)Hadoop及其生態(tài)系統(tǒng)有所了解,就可以輕松進(jìn)入的。
在大數(shù)據(jù)行業(yè)中,加班加點(diǎn)是常飯,因?yàn)閿?shù)據(jù)有時(shí)候真的很令人堪憂,自然是逃脫不了的事情。
當(dāng)然,萬(wàn)事都不是絕對(duì)的。有些企業(yè)還是要轉(zhuǎn)型的,會(huì)開(kāi)設(shè)這樣的研發(fā)部門,此時(shí)還是比較容易進(jìn)去的。
大數(shù)據(jù)行業(yè)的工作,是1個(gè)考驗(yàn)綜合能力的職位,絕不是網(wǎng)上一些公眾號(hào)宣稱的那么神奇和簡(jiǎn)單。
如果只是為了高薪而隨意進(jìn)入1個(gè)行業(yè),是件挺危險(xiǎn)的事情。如果在事先沒(méi)有考慮妥當(dāng),完全是為了薪資而不是個(gè)人興趣的話,你會(huì)很快發(fā)現(xiàn)就失去了前行的動(dòng)力。
無(wú)論從事什么崗位,都要不定期的總結(jié)和歸納,從而形成自己的知識(shí)體系,并擴(kuò)充自己的軟技能。
原文地址:
http://blog.52sox.com/hadoop-...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/72837.html
摘要:的組成在的框架版本中最核心的設(shè)計(jì)是其中是的縮寫是個(gè)分布式文件系統(tǒng)實(shí)際操作與如系統(tǒng)的操作類似。另外不是非要依附在上才能生存它可以與其他的分布式文件系統(tǒng)進(jìn)行集成來(lái)運(yùn)作。 實(shí)際上,關(guān)于Hadoop及其生態(tài)系統(tǒng)的文章或者書(shū)籍已經(jīng)汗牛充棟,在2016年大數(shù)據(jù)這個(gè)概念興起的時(shí)候,有幸于能進(jìn)入數(shù)據(jù)行業(yè)。雖然,在這2年里,并沒(méi)有達(dá)到自己最初的期望,不過(guò)還是跨出了那么一步。 這里,我們簡(jiǎn)單的聊聊Had...
摘要:二這些內(nèi)容都很有意思,本文唯獨(dú)想聊聊它內(nèi)置電池。這樣做的預(yù)期效果是內(nèi)置電池會(huì)變得輕量小型化高質(zhì)量,同時(shí)三方庫(kù)的生態(tài)系統(tǒng)也能得到進(jìn)化。目前,該仍處于草案狀態(tài),但已基本成為社區(qū)共識(shí)。 showImg(https://segmentfault.com/img/remote/1460000019489233?w=1880&h=1253); 本文原創(chuàng)并首發(fā)于公眾號(hào)【Python貓】,未經(jīng)授權(quán),請(qǐng)...
摘要:二這些內(nèi)容都很有意思,本文唯獨(dú)想聊聊它內(nèi)置電池。這樣做的預(yù)期效果是內(nèi)置電池會(huì)變得輕量小型化高質(zhì)量,同時(shí)三方庫(kù)的生態(tài)系統(tǒng)也能得到進(jìn)化。目前,該仍處于草案狀態(tài),但已基本成為社區(qū)共識(shí)。 showImg(https://segmentfault.com/img/remote/1460000019489233?w=1880&h=1253); 本文原創(chuàng)并首發(fā)于公眾號(hào)【Python貓】,未經(jīng)授權(quán),請(qǐng)...
閱讀 3376·2021-11-22 13:53
閱讀 3411·2021-10-11 11:11
閱讀 932·2019-08-30 14:12
閱讀 1222·2019-08-29 17:16
閱讀 640·2019-08-29 16:45
閱讀 3349·2019-08-29 12:56
閱讀 670·2019-08-28 17:55
閱讀 2065·2019-08-26 13:24