{eval=Array;=+count(Array);}

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

問答專欄Q & A COLUMN

大數(shù)據(jù)主要學(xué)習(xí)哪些內(nèi)容?

felix0913felix0913 回答0 收藏1
收藏問題

10條回答

frontoldman

frontoldman

回答于2022-06-28 14:56

先上一張大數(shù)據(jù)技術(shù)學(xué)習(xí)的必備技能圖:

入門學(xué)習(xí)需要掌握的基本技能

1、Java

2、Linux命令

3、HDFS

4、MapReduce

5、 Hadoop

6、Hive

7、ZooKeeper

8、HBase

9、Redis

10、Flume

11、SSM

12、Kafka

13、Scala

14、Spark

15、MongoDB

16、Python與數(shù)據(jù)分析等等。

我們所說的大數(shù)據(jù)培訓(xùn)學(xué)習(xí),一般是指大數(shù)據(jù)開發(fā)。大數(shù)據(jù)開發(fā)需要學(xué)習(xí)的東西可以參考一下加米谷大數(shù)據(jù)培訓(xùn)0基礎(chǔ)學(xué)習(xí)的課程,具體描述可見guan網(wǎng):

第一階段:Java設(shè)計與編程思想

第二階段: Web前端開發(fā)

第三階段: JavaEE進(jìn)階

第四階段: 大數(shù)據(jù)基礎(chǔ)

第五階段: HDFS分布式文件系統(tǒng)

第六階段:MapReduce分布式計算模型

第七階段: Yarn分布式資源管理器

第八階段: Zookeeper分布式協(xié)調(diào)服務(wù)

第九階段: Hbase分布式數(shù)據(jù)庫

第十階段: Hive分布式數(shù)據(jù)倉庫

第十一階段: FlumeNG分布式數(shù)據(jù)采集系統(tǒng)

第十二階段: Sqoop大數(shù)據(jù)遷移系統(tǒng)

第十三階段: Scala大數(shù)據(jù)黃金語言

第十四階段: kafka分布式總線系統(tǒng)

第十五階段: SparkCore大數(shù)據(jù)計算基石

第十六階段: SparkSQL數(shù)據(jù)挖掘利器

第十七階段: SparkStreaming流失計算平臺

第十八階段: SparkMllib機(jī)器學(xué)習(xí)平臺

第十九階段:SparkGraphx圖計算平臺

第二十階段: 大數(shù)據(jù)項目實戰(zhàn)

評論0 贊同0
  •  加載中...
AlanKeene

AlanKeene

回答于2022-06-28 14:56

這是一個非常好的問題,作為一名IT從業(yè)者,同時也是一名教育工作者,我來回答一下。

大數(shù)據(jù)經(jīng)過多年的發(fā)展,已經(jīng)逐漸形成了一個比較龐大且系統(tǒng)的知識體系,整體的技術(shù)成熟度也已經(jīng)比較高了,所以當(dāng)前學(xué)習(xí)大數(shù)據(jù)技術(shù)也會有一個比較好的學(xué)習(xí)體驗。

由于大數(shù)據(jù)涉及到的內(nèi)容比較多,而且大數(shù)據(jù)技術(shù)與行業(yè)領(lǐng)域也有比較緊密的聯(lián)系,所以在學(xué)習(xí)大數(shù)據(jù)的時候,既可以從技術(shù)角度出發(fā),也可以立足行業(yè)來學(xué)習(xí)大數(shù)據(jù)。對于學(xué)生來說,可以從大數(shù)據(jù)技術(shù)體系來學(xué)習(xí),而對于職場人來說,可以結(jié)合自身的行業(yè)和崗位任務(wù)來學(xué)習(xí)大數(shù)據(jù)。

不論是學(xué)生還是職場人,要想學(xué)習(xí)大數(shù)據(jù)都需要掌握以下幾個基本內(nèi)容:

第一:計算機(jī)基礎(chǔ)知識。計算機(jī)基礎(chǔ)知識對于學(xué)習(xí)大數(shù)據(jù)技術(shù)是非常重要的,其中操作系統(tǒng)、編程語言和數(shù)據(jù)庫這三方面知識是一定要學(xué)習(xí)的。編程語言可以從Python開始學(xué)起,而且如果未來要從事專業(yè)的大數(shù)據(jù)開發(fā),也可以從Java開始學(xué)起。計算機(jī)基礎(chǔ)知識的學(xué)習(xí)具有一定的難度,學(xué)習(xí)過程中要重視實驗的作用。

第二:數(shù)學(xué)和統(tǒng)計學(xué)基礎(chǔ)知識。大數(shù)據(jù)技術(shù)體系的核心目的是“數(shù)據(jù)價值化”,數(shù)據(jù)價值化的過程一定離不開數(shù)據(jù)分析,所以作為數(shù)據(jù)分析基礎(chǔ)的數(shù)學(xué)和統(tǒng)計學(xué)知識就比較重要了。數(shù)學(xué)和統(tǒng)計學(xué)基礎(chǔ)對于大數(shù)據(jù)從業(yè)者未來的成長空間有比較重要的影響,所以一定要重視這兩個方面知識的學(xué)習(xí)。

第三:大數(shù)據(jù)平臺基礎(chǔ)。大數(shù)據(jù)開發(fā)和大數(shù)據(jù)分析都離不開大數(shù)據(jù)平臺的支撐,大數(shù)據(jù)平臺涉及到分布式存儲和分布式計算等基礎(chǔ)性功能,掌握大數(shù)據(jù)平臺也會對于大數(shù)據(jù)技術(shù)體系形成較深的認(rèn)知程度。對于初學(xué)者來說,可以從Hadoop和Spark開始學(xué)起。

我從事互聯(lián)網(wǎng)行業(yè)多年,目前也在帶計算機(jī)專業(yè)的研究生,主要的研究方向集中在大數(shù)據(jù)和人工智能領(lǐng)域,我會陸續(xù)寫一些關(guān)于互聯(lián)網(wǎng)技術(shù)方面的文章,感興趣的朋友可以關(guān)注我,相信一定會有所收獲。

如果有互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等方面的問題,或者是考研方面的問題,都可以在評論區(qū)留言,或者私信我!

評論0 贊同0
  •  加載中...
xuxueli

xuxueli

回答于2022-06-28 14:56

謝謝邀請!大數(shù)據(jù)包括大數(shù)據(jù)開發(fā)、大數(shù)據(jù)分析挖掘、數(shù)據(jù)工程師(大數(shù)據(jù)運(yùn)維)幾個方向,不過在企業(yè)經(jīng)常會職能交叉。學(xué)習(xí)內(nèi)容:Linux基礎(chǔ)-->Python/Java/Scala編程語言選擇一種-->MySQL/Oracle數(shù)據(jù)庫-->Hadoop及其套件-->Hive數(shù)據(jù)倉庫-->Spark開發(fā),包括流開發(fā)-->Storm/Flink實時處理......

1) 簡單點評:

發(fā)展不錯,需求不少,不過需求中主要是數(shù)據(jù)分析相關(guān)崗位,牽涉到算法建模等高級內(nèi)容的話實際上不適合剛畢業(yè)的不同本科學(xué)生。建議普通本科或?qū)?茖W(xué)生從數(shù)據(jù)分析入行,掌握Python,以后逐步向高級數(shù)據(jù)分析師、數(shù)據(jù)挖掘工程師、人工智能開發(fā)工程師方向走,

2)發(fā)展前景:

大數(shù)據(jù)類職位需求增幅僅次于AI崗位。眼下,幾乎所有互聯(lián)網(wǎng)企業(yè)均把數(shù)據(jù)人才列為團(tuán)隊標(biāo)配。許多公司在數(shù)據(jù)層面增加投入,大量招募具有算法和建模能力的人才,力求通過數(shù)據(jù)沉淀與挖掘更好地推進(jìn)產(chǎn)品的迭代。數(shù)據(jù)架構(gòu)師、數(shù)據(jù)分析師成為企業(yè)爭搶對象,過去一年招聘需求提高150%以上。2017,互聯(lián)網(wǎng)公司對AI和數(shù)據(jù)人才的爭搶活躍度提高了30%以上,企業(yè)間相互挖角行為變得更加頻繁,人才爭奪激烈程度全面升級。物聯(lián)網(wǎng)、智慧城市、增強(qiáng)現(xiàn)實(AR)與虛擬現(xiàn)實(VR)、區(qū)塊鏈技術(shù)、語音識別、人工智能、數(shù)字匯流是大數(shù)據(jù)未來應(yīng)用的七大發(fā)展方向。

3)行業(yè)定位:

4)面向?qū)I(yè):

計算機(jī)、數(shù)學(xué)與統(tǒng)計、物理、電子、通信工程、物聯(lián)網(wǎng)、網(wǎng)絡(luò)工程等相關(guān)專業(yè)大專以上學(xué)生。推薦中上游學(xué)生學(xué)習(xí)。

5)薪酬分析:

數(shù)據(jù)來源: 職友網(wǎng)

更多資訊請關(guān)注筆者頭條號“語凡提”,向智慧化身阿凡提致敬,致力于分享大數(shù)據(jù)/數(shù)據(jù)分析/人工智能視頻!

評論0 贊同0
  •  加載中...
Edison

Edison

回答于2022-06-28 14:56

對于大數(shù)據(jù)想必了解過的人和想要學(xué)習(xí)大數(shù)據(jù)的童鞋都是有所了解的,知道大數(shù)據(jù)培訓(xùn)相關(guān)的一些學(xué)習(xí)內(nèi)容都有個大概的了解,但是對于大數(shù)據(jù)培訓(xùn)學(xué)習(xí)內(nèi)容的一些比較詳細(xì)的內(nèi)容還是有所差距的,我們學(xué)習(xí)大數(shù)據(jù)的主要目的就是未來以后可以到大企業(yè)去做相關(guān)的工作,拿到客觀的薪資。那么這就需要我們了解企業(yè)對于大數(shù)據(jù)技術(shù)的需求是什么,大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)大數(shù)據(jù)課程內(nèi)容是否包含這些內(nèi)容。接下來帶大家簡單了解一下。

第一階段Java語言基礎(chǔ),此階段是大數(shù)據(jù)剛?cè)腴T階段,主要是學(xué)習(xí)一些Java語言的概念、字符、流程控制等。

第二階段Javaee核心了解并熟悉一些HTML、CSS的基礎(chǔ)知識,JavaWeb和數(shù)據(jù)庫,Linux基礎(chǔ),Linux操作系統(tǒng)基礎(chǔ)原理、虛擬機(jī)使用與Linux搭建、Shell 腳本編程、Linux 權(quán)限管理等基本的 Linux 使用知識,通過實際操作學(xué)會使用。

第五階段 Hadoop 生態(tài)體系,Hadoop 是大數(shù)據(jù)的重中之重,無論是整體的生態(tài)系統(tǒng)、還是各種原理、使用、部署,都是大數(shù)據(jù)工程師工作中的核心,這一部分必須詳細(xì)解讀同時輔以實戰(zhàn)學(xué)習(xí)。

第六階段Spark生態(tài)體系,這也是是大數(shù)據(jù)非常核心的一部分內(nèi)容,在這一時期需要了解Scala語言的使用、各種數(shù)據(jù)結(jié)構(gòu)、同時還要深度講解spark的一系列核心概念比如結(jié)構(gòu)、安裝、運(yùn)行、理論概念等。

2021大數(shù)據(jù)學(xué)習(xí)路線圖:


評論0 贊同0
  •  加載中...
UnixAgain

UnixAgain

回答于2022-06-28 14:56

  縱觀近幾年的互聯(lián)網(wǎng)發(fā)展趨勢,看到大數(shù)據(jù)被炒得火熱,也想要涉足大數(shù)據(jù)領(lǐng)域,學(xué)習(xí)一些大數(shù)據(jù)技術(shù)。技術(shù)很重要,人才自然是不可或缺的,想要你想成為的大數(shù)據(jù)技術(shù)人才,就必須要經(jīng)歷學(xué)習(xí)技術(shù)的枯燥乏味的過程。

  首先你需要先認(rèn)識到一個問題,想要涉足大數(shù)據(jù)領(lǐng)域,肯定是有一定難度的,但有句話說的好“當(dāng)你感覺特別累的時候,也就是說明你在走上坡路”。雖然困難,但只要你想學(xué)習(xí),萬事皆有可能。

  要找準(zhǔn)自己的定位,先了解自己的實力,然后從容應(yīng)對以后的學(xué)習(xí)途徑。對于大數(shù)據(jù)技術(shù)自己是真的喜歡嗎?面對冗雜的代碼,復(fù)雜的數(shù)據(jù),自己是否能奈的住性子一直堅持下去?自己之前接觸過大數(shù)據(jù)技術(shù)嗎?之前接觸過編程知識嗎?是否已經(jīng)熟練掌握了一門編程語言?

  現(xiàn)實中就業(yè)危機(jī)的問題依然嚴(yán)峻,緊繃的神經(jīng)時刻提醒著要不斷的提升自己。學(xué)習(xí)的越多,越能夠感受到知識海洋的浩瀚。相比于將大量零碎的技術(shù)名詞縮寫塞進(jìn)昏沉的大腦,手指無意識地敲出幾行代碼,培養(yǎng)以計算機(jī)思維解決問題才是更重要的。

“工欲善其事,必先利其器”,不斷涌現(xiàn)的新技術(shù),本質(zhì)上是新工具對舊工具的迭代更新,如果我們不能掌握其中的規(guī)律,很容易浮于表層,難以觸類旁通,在很多非科班出生的同學(xué)身上,這個問題尤其明顯。

  數(shù)據(jù)結(jié)構(gòu),概率論,線性代數(shù),設(shè)計模式,這些子學(xué)科是構(gòu)成大數(shù)據(jù)技術(shù)的堅強(qiáng)基石,是前人無數(shù)智慧的結(jié)晶。

  至于具體要用什么樣的方式來學(xué)大數(shù)據(jù),這個主要是看自己的選擇了,專業(yè)的學(xué)習(xí)方式會幫助更快進(jìn)入學(xué)習(xí)氛圍中,再就是看自己的學(xué)習(xí)能力和感興趣程度了。

評論0 贊同0
  •  加載中...
shery

shery

回答于2022-06-28 14:56

我有幸做了七八年的大數(shù)據(jù)吧,從技術(shù)角度談?wù)勛约旱目捶?,大?shù)據(jù)都有哪個領(lǐng)域,都需要學(xué)習(xí)什么技術(shù)。

第一,首先要把這些大數(shù)據(jù)都可靠的存儲起來,經(jīng)過多年的發(fā)展,hdfs已經(jīng)成了一個數(shù)據(jù)存儲的標(biāo)準(zhǔn)。當(dāng)然還有其他的存儲,比如kudu,hbase等,都是適合不同領(lǐng)域的存儲。

第二,既然有了這么多的數(shù)據(jù),我們可以開始基于這些數(shù)據(jù)做計算了,于是從最早的MapReduce到后來的hive,spark,都是做批處理的。

第三, 由于像hive這些基于MapReduce的引擎處理速度過慢,于是有了基于內(nèi)存的olap查詢引擎,比如impala,presto。

第四,由于批處理一般都是天級別或者小時級別的,為了更快的處理數(shù)據(jù),于是有了spark streaming或者flink這樣的流處理引擎。

第五,由于沒有一個軟件能覆蓋住所有場景。所以針對不同的領(lǐng)域,有了一些特有的軟件,來解決特定場景下的問題,比如基于時間序列的聚合分析查詢數(shù)據(jù)庫,inflexdb opentsdb等。采用預(yù)聚合數(shù)據(jù)以提高查詢的druid或者kylin等,

第六,還有其他用于數(shù)據(jù)削峰和消費(fèi)訂閱的消息隊列,比如kafka和其他各種mq

第七,還有一些其他的組件,比如用于資源管理的yarn,協(xié)調(diào)一致性的zookeeper等。

第八,由于hdfs 處理小文件問題不太好,還有為了解決大數(shù)據(jù)update和insert等問題,引入了數(shù)據(jù)湖的概念,比如hudi,iceberg等等。

第九,業(yè)務(wù)方面,我們基于大數(shù)據(jù)做一些計算,給公司的運(yùn)營提供數(shù)據(jù)支撐。做一些推薦,給用戶做個性化推薦。機(jī)器學(xué)習(xí),報警監(jiān)控等等。

附一張大數(shù)據(jù)技術(shù)圖譜,你可以參考下

評論0 贊同0
  •  加載中...
leiyi

leiyi

回答于2022-06-28 14:56

大數(shù)據(jù)作為當(dāng)下互聯(lián)網(wǎng)編程語言培訓(xùn)熱門明星學(xué)科,大數(shù)據(jù)培訓(xùn)需要學(xué)習(xí)的內(nèi)容很多,培訓(xùn)學(xué)習(xí)除了會有大數(shù)據(jù)技術(shù)知識的學(xué)習(xí),同時還會在學(xué)習(xí)的過程中階段性的插入一些相關(guān)企業(yè)項目進(jìn)行實操學(xué)習(xí),大數(shù)據(jù)主要的學(xué)習(xí)內(nèi)容為:

1、基礎(chǔ)部分:JAVA語言 和 LINUX系統(tǒng)。

2、大數(shù)據(jù)技術(shù)部分:HADOOP、HIVE、OOZIE、WEB、FLUME、PYTHON、HBASE、KAFKA、SCALA、SPARK、SPARK調(diào)優(yōu)等,覆蓋前沿技術(shù):Hadoop,Spark,Flink,實時數(shù)據(jù)處理、離線數(shù)據(jù)處理、機(jī)器學(xué)習(xí)。

3、實訓(xùn)項目:一般包括JAVA項目,大數(shù)據(jù)項目,企業(yè)大數(shù)據(jù)平臺等,大數(shù)據(jù)企業(yè)的商業(yè)項目直接為學(xué)員所用,一線大牛工程師親自指導(dǎo)實戰(zhàn)開發(fā),業(yè)務(wù)覆蓋電商、在線教育、旅游、新聞、智慧城市等主流行業(yè),全程貫穿項目實戰(zhàn)。

另外,在選擇大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)時,要選擇專業(yè)做大數(shù)據(jù)的,還要考慮機(jī)構(gòu)的課程設(shè)置、講師團(tuán)隊、硬件設(shè)施、實訓(xùn)項目等多方面條件。

2020大數(shù)據(jù)學(xué)習(xí)路線圖:



評論0 贊同0
  •  加載中...
Songlcy

Songlcy

回答于2022-06-28 14:56

前言

要從事計算機(jī)行業(yè)的工作,不管是什么工作,開發(fā)、測試、還是算法等,都是要有一門自己比較熟練的編程語言,編程語言可以是C語言、Java、C++等,只要是和你后續(xù)工作所相關(guān)的就可以(后續(xù)用到其他語言的話,你有一門語言基礎(chǔ)了,學(xué)起來就快了)。一般初學(xué)者入門語言大多都會選擇Java、C語言、C++或者Python,而且現(xiàn)在網(wǎng)上有很多好的視頻,可以供初學(xué)者學(xué)習(xí)使用。關(guān)于學(xué)習(xí)視頻或者資料的選擇,知乎或者百度等都有很多講解了,也可以跟師兄師姐咨詢,這樣可以少走很多彎路,當(dāng)然,有人說,走一些彎路總是有好處的,但是我這里說的彎路不是說不犯錯誤,不調(diào)bug,而是指學(xué)習(xí)資料以及一些知識點的偏重點,這樣可以盡量節(jié)約一部分時間,剛開始時,總會有點迷,而且當(dāng)你真正投入進(jìn)去學(xué)習(xí)時,會發(fā)現(xiàn)時間總是不夠用。

我前面是做的Java后端,后續(xù)才轉(zhuǎn)的大數(shù)據(jù),所以一些Java開發(fā)所需要的東西自己也有學(xué)習(xí)過,也都是按照正常的路線走的,JavaSE階段,然后數(shù)據(jù)庫,SSM框架,接著做了一些網(wǎng)上找的項目,之后發(fā)現(xiàn)對大數(shù)據(jù)比較感興趣,就開始找大數(shù)據(jù)相關(guān)的資料學(xué)習(xí),看視頻,看博客,敲代碼,前期大概花了3-4個月吧(公眾號的這些資料就是我當(dāng)時看過的),也是一步步艱難走過來的,剛剛開始接觸大數(shù)據(jù)相關(guān)的東西時,一度懷疑這么多東西自己能否學(xué)得完,是不是能用得到,學(xué)完又忘了,忘了又回頭看,不過還好,堅持過來了,還好沒有放棄,工作也還ok,找的大數(shù)據(jù)開發(fā)崗,待遇也還不錯吧。

下面就說一下我自己從Java開發(fā)到大數(shù)據(jù)開發(fā)的曲折學(xué)習(xí)之路(狗頭保命.jpg)。
因為我現(xiàn)在是做大數(shù)據(jù)相關(guān)的工作了,所以Java后端涉及到的一些SSM框架等知識點我就不介紹了,畢竟后續(xù)一段時間也沒有做了。自己看過的大數(shù)據(jù)學(xué)習(xí)相關(guān)的視頻+資料大概是200G-300G吧,從Linux->Hadoop->。。。->Spark->項目,還有就是一些面試文檔,面經(jīng)等。一些視頻看了兩遍或者更多,跟著學(xué),跟著敲代碼,做項目,準(zhǔn)備面試。
涉及到需要學(xué)習(xí)的東西包括:JavaSE,數(shù)據(jù)結(jié)構(gòu)與算法(計算機(jī)行業(yè)必備),MySQL,Redis,ES(數(shù)據(jù)庫這些可以看項目,也可以自己熟練一兩個),Linux,Shell(這個可以后期補(bǔ)),Hadoop,Zookeeper,Hive,F(xiàn)lume,Kafka,HBase,Scala(Spark是Scala寫的,會Scala做相關(guān)的項目會更容易入手),Spark,F(xiàn)link(這個是找工作時有面試官問過幾次liao不liao解,所以找完工作才開始接觸學(xué)習(xí)),相關(guān)項目。

編程語言階段學(xué)習(xí)

? 如果是零基礎(chǔ)的話,建議還是從視頻開始入門比較好,畢竟一上來就看教材,這樣有些代碼的來龍去脈可能不是很了解。如果是有一些編程語言基礎(chǔ)的話,從視頻開始也會更簡單,一些for、while循環(huán)你都知道了,學(xué)起來也會快很多。
? JavaSE我是選擇的某馬劉意的為主,因為剛剛開始學(xué)Java看過一本從《Java從入門到精通》,沒什么感覺,后續(xù)又在看了某課網(wǎng)的Java初級視頻,還是沒感覺出來啥(當(dāng)時就有點懷疑自己了。。。),可能有點沒進(jìn)入狀態(tài)。
? 還好后續(xù)找了某馬劉意老師的JavaSE視頻(我是看的2015年版本,那時候19版還沒出),覺得他講的真的是很好很詳細(xì),每個知識點都會有例子,也都會帶你敲代碼,做測試,可能前面有C語言基礎(chǔ),然后也看過Java的一些語法,所以學(xué)起來還是比較順利,后面的IO流、多線程等知識點時,也有看書看博客,或者看看其他老師的課程,講解的可能自己比較容易接受就可以,反正都是多嘗試(下面會給出視頻鏈接),盡量懂一些,后續(xù)可以回頭來復(fù)習(xí)。JavaSE相關(guān)的視頻,先看一遍,后續(xù)有時間建議再看一遍,而且這些經(jīng)典的視頻,看兩遍真的是享受。
? 如果有一定基礎(chǔ)了的,JavaSE前面七八天的視頻可以加速看,但是不懂的一定要停下開仔細(xì)想想,零基礎(chǔ)的還是盡量不要加速吧,慢慢來穩(wěn)些。后面的視頻建議還是跟著視頻來,盡量不要加速,代碼盡量都敲一敲,第一遍基本上一個月到一個半月可以結(jié)束。
? JavaSE可以說是很基礎(chǔ)也很重要的東西,主要重點包括面向?qū)ο蟆⒓希↙ist、Map等),IO流,String/StringBuilder/StringBuffer、反射、多線程,這些最好是都要熟悉一些,面試也是重點。
? JavaSE之后,如果你是要走前端或后端開發(fā)路線的話,可以跟著一些網(wǎng)上的視頻繼續(xù)學(xué)習(xí),這里我就不多做介紹了。

===========分割線,Scala可以后續(xù)Spark階段再接觸學(xué)習(xí)=============

? Scala的學(xué)習(xí),Scala是一門多范式 (multi-paradigm) 的編程語言,Scala支持面向?qū)ο蠛秃瘮?shù)式編程,最主要的是后續(xù)Spark的內(nèi)容需要用到Scala,所以前面學(xué)習(xí)了JavaSE,到Spark學(xué)習(xí)之前,再把Scala學(xué)習(xí)一波,美滋滋,而且Scala可以和Java進(jìn)行無縫對接,混合使用,更是爽歪歪。后續(xù)Spark學(xué)習(xí)時基本都是用的Scala,也可能是和Java結(jié)合使用,所以Spark之前建議還是先學(xué)一波Scala,而且Scala用起來真是很舒服(wordcount一行代碼搞定),適合迭代式計算,對數(shù)據(jù)處理有很大幫助,不過Scala看代碼很容易看懂,但是學(xué)起來還是挺難的,比如樣例類(case class)用起來真是nice,但是隱式轉(zhuǎn)換學(xué)起來就相對比較難。學(xué)習(xí)Scala的建議:1. 學(xué)習(xí)scala 特有的語法,2. 搞清楚scala和java區(qū)別,3. 了解如何規(guī)范的使用scala。Scala對學(xué)習(xí)Spark是很重要的(后面Flink也是要用),雖然現(xiàn)在很多公司還是用Java開發(fā)比較多,而且Spark是Scala寫的,如果要讀源碼,會Scala還是很重要的(至少要看得懂代碼)。
? Scala主要重點包括:隱式轉(zhuǎn)換和隱式參數(shù)、模式匹配、函數(shù)式編程。這里我看的是某硅谷韓老師的Scala視頻,韓老師講的真的很不錯,五星推薦,哈哈。
? 也許有人會覺得Python也是需要的,但是學(xué)習(xí)階段,可能用Java還是比較多,面試也基本都是問Java相關(guān)的內(nèi)容,所以Python后續(xù)工作會用到的話,再看看Python的內(nèi)容吧。

大數(shù)據(jù)框架階段學(xué)習(xí)

? 大數(shù)據(jù)這方面的知識點自己可以說真的是從零開始的,剛剛開始學(xué)那會Linux基本都沒用過,心里那個虛啊,而且時間也緊迫,想起來都是一把辛酸淚。
? 剛剛開始學(xué)的時候,看了廈門大學(xué)林子雨的《 大數(shù)據(jù)技術(shù)原理與應(yīng)用》課程,可能這個課程是面對上課的,所以看了一些,感覺對自己幫助不是很大(并不是說課程不好,可能不太適合自己,如果是要了解理論知識,很透徹,但是俺時間緊迫?。跃屠^續(xù)在網(wǎng)上找視頻,然后發(fā)現(xiàn)某硅谷的培訓(xùn)視頻很多人去參加,而且知識點也很齊全,大數(shù)據(jù)相關(guān)組件都有講課,還有一些項目比較好,所以就找了它相關(guān)的視頻,當(dāng)時看的是2018年的,所以視頻不算舊。
? 來一張推薦系統(tǒng)架構(gòu)的圖,先看看

? 一般來說,F(xiàn)lume+Kafka對數(shù)據(jù)進(jìn)行采集聚合傳輸,一方面Spark對實時數(shù)據(jù)進(jìn)行處理,傳輸給相應(yīng)的數(shù)據(jù)處理模塊(比如實時數(shù)據(jù)處理的算法模塊,Spark也有提供常見的機(jī)器學(xué)習(xí)算法的程序庫),另一方面采集的數(shù)據(jù)也可以放入數(shù)據(jù)庫(HBase、MongoDB等)中,后續(xù)MapReduce對離線數(shù)據(jù)進(jìn)行離線處理,數(shù)據(jù)處理完畢用于后續(xù)的使用,數(shù)據(jù)采集處理的流程大概就是這樣。如果是推薦系統(tǒng),實時推薦會給用戶產(chǎn)生實時的推薦結(jié)果,讓用戶進(jìn)行查閱選擇,比如你在界面瀏覽了或者看了新的物品,然后刷新下界面,可能給你展示的東西就有一些變成跟你剛剛瀏覽的相關(guān)了。離線推薦的話主要是對離線數(shù)據(jù)進(jìn)行處理,為物品或種類做出相似的推薦,如果后續(xù)用戶搜索相應(yīng)的物品時,給用戶展示相應(yīng)的產(chǎn)品。

? 大數(shù)據(jù)學(xué)習(xí)路線:Linux -> Hadoop -> Zookeeper -> Hive -> Flume -> Kafka -> HBase -> Scala -> Spark -> 項目 - > Flink( 如果需要學(xué)習(xí)Storm,在Spark前面學(xué)習(xí))

一、Linux(基本操作)

? 一般我們使用的都是虛擬機(jī)來進(jìn)行操作,所以要安裝VM( Virtual Machine),我使用的是CentOS,所以VM和CentOS都要跟著安裝好,跟著視頻操作,一定要動手實踐,將一些Linux基本命令熟練掌握,一些VIM編輯器的命令也要會用,做相應(yīng)的一些配置,使用SecureCRT來做遠(yuǎn)程登錄操作(也可以使用其他的,自己順手就行)。再強(qiáng)調(diào)一遍,基本操作命令盡量熟練一點,如果一下記不住,打印一些常用的,自己看看,多用多實踐,慢慢就會用了。還有一些軟件包的下載安裝卸載等,跟著操作一遍,熟悉下,后續(xù)都會使用,Shell編程可以后續(xù)補(bǔ)。

二、Hadoop(重點中的重點)

? Hadoop是一個分布式系統(tǒng)基礎(chǔ)框架,用于主要解決海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計算問題,也可以說Hadoop是后續(xù)整個集群環(huán)境的基礎(chǔ),很多框架的使用都是會依賴于Hadoop。主要是由HDFS、MapReduce、YARN組成。這個部分安裝Hadoop,Hadoop的三個主要組成部分是重點,對他們的概念要理解出來,知道他們是做什么的,搭建集群環(huán)境,偽分布式模式和完全分布式模式的搭建,重要的是完全分布式的搭建,這些部分一定要自己動手實踐,自己搭建集群,仔細(xì)仔細(xì)再仔細(xì),Hadoop的NameNode,DataNode,YARN的啟動關(guān)閉命令一定要知道,以及他們的啟動關(guān)閉順序要記住,不要搞混。后續(xù)視頻會有一些案例操作,跟著寫代碼,做測試,把基本環(huán)境都配置好,后續(xù)這個集群(完全分布式需要三臺虛擬機(jī))要一直使用。

三、Zookeeper

? Zookeeper是一個開源的分布式的,為分布式應(yīng)用提供協(xié)調(diào)服務(wù)的Apache項目。分布式安裝ZK,對ZK有一定的了解就可以了,了解它的應(yīng)用場景,以及內(nèi)部原理,跟著做一些操作,基本上有一些了解即可。

四、Hive(重點)

? Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,并提供類SQL查詢功能。Hive的安裝,它的數(shù)據(jù)類型,以及它的數(shù)據(jù)定義、數(shù)據(jù)操作有較好的了解,怎么操作表(創(chuàng)建表、刪除表,創(chuàng)建什么類型的表,他們有什么不同),怎么操作數(shù)據(jù)(加載數(shù)據(jù),下載數(shù)據(jù),對不同的表進(jìn)行數(shù)據(jù)操作),對數(shù)據(jù)的查詢一定要進(jìn)行實踐操作,以及對壓縮方式和存儲格式要有一些了解,用到時不懂也可以去查,最好是能理解清楚。這部分有什么面試可能會問,所以視頻后續(xù)的面試講解可以看看,理解清楚。

五、Flume

? Flume是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。對于Flume,對它的組成架構(gòu),以及對Flume Agent的內(nèi)部原理要理解清楚,Source、Channel、Sink一定要知道它們的各種類型以及作用,有哪些拓?fù)浣Y(jié)構(gòu)是常見常用的,例如一對一,單Source、多Channel、多Sink等,它們有什么作用,要理解清楚。還有一個重點,就是對Flume的配置文件一定要了解清楚,不懂的可以上官網(wǎng)查看案例,對于不同的情況,它的配置文件要做相應(yīng)的修改,才能對數(shù)據(jù)進(jìn)行采集處理,視頻中的實踐案例一定要跟著做。

六、Kafka(重點)

? Kafka是一個分布式消息隊列,用來緩存數(shù)據(jù)的。比如說實時計算中可以通過Flume+Kafka對數(shù)據(jù)進(jìn)行采集處理之后,Spark Streaming再使用Kafka相應(yīng)的Topic中的數(shù)據(jù),用于后續(xù)的計算使用。對于Kafka,要理解Kafka的架構(gòu),什么是Kafka,為什么需要Kafka,應(yīng)用場景?;镜拿钚胁僮饕莆眨热缭趺磩?chuàng)建刪除Topic,怎么通過生產(chǎn)者生成數(shù)據(jù),消費(fèi)者怎么消費(fèi)數(shù)據(jù)等基本操作,官網(wǎng)也是有一些案例可以查閱的。

七、HBase(重點)

? HBase是一個分布式的、基于列存儲的開源數(shù)據(jù)庫。HBase適合存儲PB級別的海量數(shù)據(jù),也可以說HBase是很適合大數(shù)據(jù)的存儲的,它是基于列式存儲數(shù)據(jù)的,列族下面可以有非常多的列,列族在創(chuàng)建表的時候就必須指定。所以對HBase的數(shù)據(jù)結(jié)構(gòu)要有一定的理解,特別是RowKey的設(shè)計部分(因為面試被問到過,咳咳,所以點一下),對于它的原理要了解,一些基本操作也要都會,比如創(chuàng)建表,對表的操作,基本的API使用等。

八、Spark(重點中的重點)

? Spark是快速、易用、通用的大數(shù)據(jù)分析引擎。一說到Spark,就有一種哪哪都是重點感覺,哈哈。
? Spark的組成可以看下圖

? Spark是基于內(nèi)存計算的,對于數(shù)據(jù)的處理速度要比MapReduce快很多很多,而且數(shù)據(jù)挖掘這些都是要對數(shù)據(jù)做迭代式計算,MapReduce對數(shù)據(jù)的處理方式也不適合,而Spark是可以進(jìn)行迭代式計算,很適合數(shù)據(jù)挖掘等場景。Spark的Spark SQL能夠?qū)Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,Spark SQL的DataFrame或DataSet可以作為分布式SQL查詢引擎的作用,可以直接使用Hive上的表,對數(shù)據(jù)進(jìn)行處理。Spark Streaming主要用于對應(yīng)用場景中的實時流數(shù)據(jù)進(jìn)行處理,支持多種數(shù)據(jù)源,DStream是Spark Streaming的基礎(chǔ)抽象,由一系列RDD組成,每個RDD中存放著一定時間段的數(shù)據(jù),再對數(shù)據(jù)進(jìn)行處理,而且是基于內(nèi)存計算,速度快,所以很適合實時數(shù)據(jù)的處理。Spark MLlib提供常見的機(jī)器學(xué)習(xí)(ML)功能的程序庫。包括分類、回歸、聚類、協(xié)同過濾等,還提供了模型評估、數(shù)據(jù) 導(dǎo)入等額外的支持功能。對Spark的核心組件、部署模式(主要是Standalone模式和YARN模式)、通訊架構(gòu)、任務(wù)調(diào)度要有一定了解(面試問到了可以說一波),Spark Shuffle要好好理解,還有內(nèi)存管理要知道,對Spark的內(nèi)核原理一定要好好理解,不僅面試可能要用,以后工作也是有幫助的。

九、Flink(重點中的重點)

? Flink是一個框架和分布式處理引擎,用于對無界(有開始無結(jié)束)和有界(有開始有結(jié)束)數(shù)據(jù)流進(jìn)行有狀態(tài)計算。現(xiàn)在主要是ucloud系公司使用的比較多,很多公司使用的還是Spark居多,而且Flink基本上都是和Spark很多功能大體上一樣的,但是以后Flink和Spark孰強(qiáng)孰弱還有待時間的考驗,不過Flink近幾年越來越火了這是事實,所以如果有時間有精力的話,可以學(xué)一學(xué)Flink相關(guān)的內(nèi)容也是很不錯的。Spark和Flink主要都是在數(shù)據(jù)處理方面應(yīng)用,在數(shù)據(jù)處理方面的話,離線數(shù)據(jù)處理:Flink暫時比不上Spark,Spark SQL優(yōu)點在于可以和Hive進(jìn)行無縫連接,Spark SQL可以直接使用Hive中的表;Flink暫時做不到這一步,因為官方不支持這一操作,F(xiàn)link只能將數(shù)據(jù)讀取成自己的表,不能直接使用Hive中的表。對于實時數(shù)據(jù)的處理:Flink和Spark可以說是平分秋色吧,而且Flink是以事件為驅(qū)動對數(shù)據(jù)進(jìn)行處理,而Spark是以時間為驅(qū)動對數(shù)據(jù)進(jìn)行處理,在一些應(yīng)用場景中,也許Flink的效果比Spark的效果還要好些,因為Flink對數(shù)據(jù)更加的敏感。比如一秒鐘如果觸發(fā)了成千上萬個事件,那么時間驅(qū)動型就很難對數(shù)據(jù)做細(xì)致的計算,而事件驅(qū)動型可以以事件為單位,一個個事件進(jìn)行處理,相比而言延遲更低,處理效果更好?,F(xiàn)在使用Flink的公司越來越多,有時間學(xué)習(xí)下,也算是有個準(zhǔn)備。

項目階段

? 其實某硅谷的視頻里面有很多大數(shù)據(jù)相關(guān)的項目,而且都是文檔配代碼的,B站上也有視頻,學(xué)習(xí)期間可以跟著視頻做兩到三個項目,自己理清思路,把項目理解透徹,還是可以學(xué)到很多東西的。
? 根據(jù)自己情況,選擇兩到三個項目重點跟著做,理解透徹一點

大數(shù)據(jù)項目實戰(zhàn)

? 某硅谷的視頻里面有很多大數(shù)據(jù)相關(guān)的項目,而且都是文檔配代碼的,學(xué)習(xí)期間可以跟著視頻做兩到三個項目,自己理清思路,把項目理解透徹,還是可以學(xué)到很多東西的。根據(jù)自己情況,選擇兩到三個項目重點跟著做,理解透徹一點。相關(guān)項目文檔資料我已經(jīng)放到網(wǎng)盤,GongZhongHao回復(fù)相應(yīng)關(guān)鍵字獲取領(lǐng)取方式。
? 相關(guān)項目、涉及技術(shù)框架及其B站鏈接(B站鏈接主要是為了有些小伙伴網(wǎng)盤速度限制,這樣就下載文檔資料即可)

書籍

? 書籍部分直接云盤鏈接保存即可,這里我放兩張Java開發(fā)和大數(shù)據(jù)開發(fā)我自己的書單(很多,路漫漫,吾將上下而求索~)
? Java后端書架:


? 大數(shù)據(jù)書架:


? 大概就這些,看完就需要很久了,大部分我也是需要的時候看相應(yīng)的部分,所以有時間可以好好看下,不然就需要哪一部分看哪一部分,有助于學(xué)習(xí)即可。

最后

? 大數(shù)據(jù)開發(fā)也是需要編程基礎(chǔ)的,并不是學(xué)會使用這些框架怎么樣就可以了,所以對于編程語言,數(shù)據(jù)結(jié)構(gòu)與算法,計算機(jī)網(wǎng)絡(luò)這些基礎(chǔ)也是要的,這些基礎(chǔ)知識也有助于自己以后的發(fā)展,如果是應(yīng)屆生校招的話,面試基本上都是JavaSE和數(shù)據(jù)結(jié)構(gòu)與算法等的知識點,還有大數(shù)據(jù)組件相關(guān)的知識點,以及對項目的理解,這些都是要自己面試前準(zhǔn)備好的,多看面經(jīng),多找面試題看,面幾次,心里有譜了,后續(xù)面試就好了。
? 不管是從事什么樣的計算機(jī)相關(guān)的崗位,編程都是很重要的,數(shù)據(jù)結(jié)構(gòu)與算法特別重要,還有就是leetcode等編程網(wǎng)站刷題,提升自己的編程思維,后續(xù)筆試面試都要要的。
? 要將一行行代碼看做一疊疊rmb,但是一行行代碼能不能轉(zhuǎn)換成一疊疊rmb,自己就一定要:堅持,多敲代碼;多敲代碼,堅持;堅持。?

評論0 贊同0
  •  加載中...
beita

beita

回答于2022-06-28 14:56


大數(shù)據(jù)技術(shù)學(xué)習(xí)的課程如下:

大數(shù)據(jù)開發(fā):Ja-va、大數(shù)據(jù)基礎(chǔ)、HDFS分布式文件系統(tǒng)、MapReduce分布式計算模型、 Yarn分布式資源管理器、Zookeeper分布式協(xié)調(diào)服務(wù)、Hbase分布式數(shù)據(jù)庫、Hive分布式數(shù)據(jù)倉庫、 FlumeNG分布式數(shù)據(jù)采集系統(tǒng)、Sqoop大數(shù)據(jù)遷移系統(tǒng)、Scala大數(shù)據(jù)黃金語言、 kafka分布式總線系統(tǒng)、Spark體系...

數(shù)據(jù)分析與挖掘:Python基礎(chǔ)、關(guān)系型數(shù)據(jù)庫MySQL、文檔數(shù)據(jù)庫MongoDB、內(nèi)存數(shù)據(jù)庫Redis、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)分析處理進(jìn)階..

評論0 贊同0
  •  加載中...
joy968

joy968

回答于2022-06-28 14:56

想學(xué)大數(shù)據(jù)的話就是自學(xué)或者培訓(xùn)了,但是自學(xué)的話就是自己買書買資料,自己看,但是往往自己看的話容易找不到重點,沒有目標(biāo),這樣比較浪費(fèi)時間

培訓(xùn)的話尤其對于小白來說效果會比較好,事半功倍,比自學(xué)更有效率,也更專業(yè)。要真正學(xué)好IT技術(shù),應(yīng)該的是找一家專業(yè)IT教育的院校,處在專業(yè)的育人環(huán)境,有專業(yè)的課程體系與老師,這才離成功最近的捷徑。建議可以跟著百戰(zhàn)程序員的線上課程學(xué)習(xí),壓力不會很大,還可以學(xué)好技術(shù),授課老師都是業(yè)內(nèi)大牛,一個好的老師可以幫你打開思路。百戰(zhàn)程序員是我自己在跟著學(xué)習(xí)的,很多的項目和實操也能很好的鍛煉的自己實力可以更好的找到工作。平時的工作生活都不耽誤,利用休息時間在線上學(xué)習(xí)不也挺好的嗎。課程質(zhì)量還是挺高的, 有很多的實操項目,還有技術(shù)老師答疑、批改作業(yè),還有班主任每天監(jiān)督學(xué)習(xí),可以先去百戰(zhàn)程序員官網(wǎng)可以試聽課程 你可以先自己感受一下

如果你有足夠的時間,自制力又不行的,可以考慮參加線下學(xué)習(xí),線下學(xué)習(xí)學(xué)習(xí)氛圍也相對好一點,可以看看尚學(xué)堂官網(wǎng)或者校區(qū)了解一下相關(guān)情況,現(xiàn)在這互聯(lián)網(wǎng)時代這么發(fā)達(dá) ,學(xué)習(xí)也不用局限于地域了

評論0 贊同0
  •  加載中...

最新活動

您已邀請0人回答 查看邀請

我的邀請列表

  • 擅長該話題
  • 回答過該話題
  • 我關(guān)注的人
向幫助了您的網(wǎng)友說句感謝的話吧!
付費(fèi)偷看金額在0.1-10元之間
<