{eval=Array;=+count(Array);}
很多初學者在學習大數(shù)據(jù)之前往往都有這樣一個疑問,那就是學習多久才能掌握相關(guān)的技術(shù),達到就業(yè)崗位的要求?
要想知道類似問題的答案需要從多個角度來分析,大數(shù)據(jù)本身涉及到一系列圍繞數(shù)據(jù)的相關(guān)技術(shù),這些技術(shù)涉及到大數(shù)據(jù)平臺技術(shù)、大數(shù)據(jù)開發(fā)技術(shù)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)呈現(xiàn)技術(shù)、數(shù)據(jù)采集整理技術(shù)等等,這些技術(shù)既有區(qū)別又有聯(lián)系,相關(guān)技術(shù)也都有相對應(yīng)的崗位,所以作為學習者來說應(yīng)該選擇一個細分方向來學習,而不能簡單的說學習大數(shù)據(jù)。
目前大數(shù)據(jù)的相關(guān)崗位以大數(shù)據(jù)開發(fā)、大數(shù)據(jù)分析、大數(shù)據(jù)運維居多,所以就從這幾個方面來簡單的分析一下需要學習哪些知識,以及一個大致的學習周期。
大數(shù)據(jù)開發(fā)是基于大數(shù)據(jù)平臺進行的功能性開發(fā),學習可以分為三個階段,分別是編程語言、大數(shù)據(jù)平臺和案例開發(fā)。編程語言往往以學習Java、Python和Scala居多,通常情況下編程語言的學習是比較耗費時間的,按照歷史經(jīng)驗來看,對于沒有編程語言的人來說,入門編程語言大概需要3個月左右的時間。看一下同一個操作采用Python、Scala和Java編寫的代碼實現(xiàn)過程:
接著要學習一下如何搭建基礎(chǔ)的大數(shù)據(jù)平臺,這部分知識對于大數(shù)據(jù)開發(fā)人員來說并不是重點,但是基本的搭建過程是應(yīng)該掌握的,搭建Hadoop平臺和Spark平臺往往也需要大量的實驗,另外還需要掌握大數(shù)據(jù)平臺的體系結(jié)構(gòu)和功能組成,這部分的學習時間大概需要2個月左右。接著就是在大數(shù)據(jù)平臺下進行項目開發(fā)了,這部分學習時間可長可短,一般完成一個綜合性的大數(shù)據(jù)開發(fā)實驗也需要1個月左右的時間,這樣算下來,入門大數(shù)據(jù)開發(fā)大概需要6個月左右的時間。
大數(shù)據(jù)分析需要學習的內(nèi)容與大數(shù)據(jù)開發(fā)有一定的區(qū)別,大數(shù)據(jù)分析需要學習各種分析算法以及各種數(shù)據(jù)分析軟件的使用。另外,目前采用機器學習的方式進行大數(shù)據(jù)分析也是一種比較流行的做法。學習大數(shù)據(jù)分析也需要了解大數(shù)據(jù)平臺的基礎(chǔ)知識、算法知識、機器學習等內(nèi)容,從學習周期上來說與大數(shù)據(jù)開發(fā)差不多,也需要6個月左右。學習數(shù)據(jù)分析往往需要具備一定的數(shù)學基礎(chǔ),否則需要補學的內(nèi)容比較多,耗費的時間也比較長。
大數(shù)據(jù)運維則主要是學習大數(shù)據(jù)平臺的搭建、組件部署、平臺測試以及維護等方面的內(nèi)容,大數(shù)據(jù)運維需要學習大量的軟硬件知識,包括計算機網(wǎng)絡(luò)知識。總的來說,學習的量也是比較大的,在時間上根據(jù)不同的基礎(chǔ)可長可短,一般在3到6個月基本上能入門。
大數(shù)據(jù)是我的主要研究方向之一,目前我也在帶大數(shù)據(jù)方向的研究生,我會陸續(xù)在頭條寫一些關(guān)于大數(shù)據(jù)方面的文章,感興趣的朋友可以關(guān)注我,相信一定會有所收獲。
如果有大數(shù)據(jù)方面的問題,也可以咨詢我。
謝謝!
大數(shù)據(jù)發(fā)展速度很快,對技術(shù)的需求也在不斷更新迭代,從第一代的Hadoop為主,到現(xiàn)在的Hadoop、Spark、Storm、Flink百花齊放,一方面是因為需求的變化,另一方面也是技術(shù)生態(tài)在不斷拓展和完善。
學大數(shù)據(jù),都學習哪些內(nèi)容,這就需要結(jié)合市場來考量,市場需求什么,那就需要去掌握相應(yīng)的技術(shù)框架。
下面例舉通用層面上,大數(shù)據(jù)一般需要學習和掌握哪些——
1、數(shù)據(jù)收集層
主要由關(guān)系型和非關(guān)系型數(shù)據(jù)收集組件,分布式消息隊列構(gòu)成。
Sqoop/Canal:關(guān)系型數(shù)據(jù)收集和導(dǎo)入工具。
Flume:非關(guān)系型數(shù)據(jù)收集工具,主要是流式日志數(shù)據(jù)。
Kafka:分布式消息隊列,一般作為數(shù)據(jù)總線使用。
2、數(shù)據(jù)存儲層
主要由分布式文件系統(tǒng)(面向文件存儲)和分布式數(shù)據(jù)庫(面向行/列的存儲)構(gòu)成。
HDFS:Hadoop分布式文件系統(tǒng)。
Hbase:構(gòu)建在HDFS之上的分布式數(shù)據(jù)庫。
Kudu:分布式列數(shù)據(jù)庫,允許用戶存儲結(jié)構(gòu)化數(shù)據(jù)。
3、資源管理與服務(wù)協(xié)調(diào)層
YARN:統(tǒng)一資源管理與調(diào)度系統(tǒng),管理集群中的各種資源。
ZooKeeper:基于簡化的Paxos協(xié)議實現(xiàn)的服務(wù)協(xié)調(diào)系統(tǒng)。
4、計算引擎層
包括批處理(時間要求低,高吞吐)、交互式處理(時間要求比較高,sql查詢)、流式實時處理(時間要求非常高、廣告投放等)三種引擎。
MapReduce:經(jīng)典的批處理計算引擎,具體良好的擴展性與容錯性。
Spark:通用的DAG計算引擎,允許用戶充分利用內(nèi)存進行快速的數(shù)據(jù)挖掘和分析。
Impala/Presto:開源的MPP系統(tǒng),允許用戶使用標準的SQL處理存儲在Hadoop中的數(shù)據(jù)。
Storm/Spark Streaming:分布式流式實時計算引擎,能夠高效的處理流式數(shù)據(jù)。
5、數(shù)據(jù)分析層
為方便用戶解決大數(shù)據(jù)問題而提供的各種數(shù)據(jù)分析工具。
Hive/Pig/SparkSQL:在計算引擎之上構(gòu)建的支撐SQL或者腳本語言的分析系統(tǒng),大大降低了用戶進行大數(shù)據(jù)分析的門檻。
Mahout/MLib:在計算引擎上構(gòu)建的機器學習庫,實現(xiàn)常用的機器學習和數(shù)據(jù)挖掘算法。
Apache Beam/Cascading:基于各類計算框架而封裝的高級API,方便構(gòu)建復(fù)雜的流水線。
你好,提出這樣的問題的人十之八九是還不太了解,學習大數(shù)據(jù)相關(guān)的東西也可以說是一個菜鳥級別的人物,那學習大數(shù)據(jù)學些什么要多久?這些問題具體得看你個人是什么樣的人,第一,你是否有編程基礎(chǔ),你有編程基礎(chǔ)的人學著大數(shù)據(jù)就相對容易些地兒你的文化基礎(chǔ)是什么呀?學習大數(shù)據(jù)需要很強的專業(yè)知識,所以你你說一個初中生或者高中生或者說一個。一個大學生以前都沒有接觸過相關(guān)領(lǐng)域的技術(shù)就去學習大數(shù)據(jù),那肯定很難,第三,你是否能堅持學習一門技術(shù)貴在堅持因為學習編程很復(fù)雜也很無趣,所以在學習的過程中,你要堅持。第四學習多久?這個看你自己的時間安排,如果你全職學習少則半年多則一年,如果你時間很緊張呢,就不好說了,至于學習什么內(nèi)容,我想這個在這里也說不太清楚,你可以去百度一下那里面在說得很清楚。
好了,如果你真心想學技術(shù)?其實也不要怕堅持付出,你一定會學會,謝謝!
在我們生活和工作中有很多地方都用到了大數(shù)據(jù)開發(fā)技術(shù),對于小伙伴來說大數(shù)據(jù)開發(fā)已經(jīng)不陌生了,企業(yè)對大數(shù)據(jù)開發(fā)人員的需求量在不斷增多,市場上也有許多小伙伴想要學習大數(shù)據(jù)開發(fā)技術(shù)知識,不過小伙伴要知道,想要入門大數(shù)據(jù)開發(fā)必須系統(tǒng)的去學習大數(shù)據(jù)開發(fā)技術(shù)。
那學習大數(shù)據(jù)很難嗎?需不需要編程基礎(chǔ)呢?大數(shù)據(jù)是一項比較復(fù)雜的編程語言,學習大數(shù)據(jù)開發(fā)是需要一定的編程基礎(chǔ)的,而且大數(shù)據(jù)是綜合性比較高的編程語言,對于零基礎(chǔ)小伙伴來說學習大數(shù)據(jù)是比較困難的,但是零基礎(chǔ)小伙伴可以選擇大數(shù)據(jù)培訓(xùn)班來學習,而且還能系統(tǒng)的學習大數(shù)據(jù)相關(guān)的技術(shù)知識。
一般零基礎(chǔ)小伙伴在大數(shù)據(jù)培訓(xùn)班學習開發(fā)技術(shù)知識,培訓(xùn)班事先會通過面試的方式對小伙伴做一個初步的了解,然后通過考試來檢測小伙伴到底適不適合學習大數(shù)據(jù)開發(fā),而且還會給小伙伴推薦比較適合學習的編程技術(shù),增加成功學習編程技術(shù)的概率。
零基礎(chǔ)小伙伴一般在大數(shù)據(jù)培訓(xùn)班學習開發(fā)技術(shù)時,需要學習一些java、Python等編程基礎(chǔ)知識包括算法、框架等知識,在后續(xù)過程中是需要學習Linux系統(tǒng)操作、學習搭建Hadoop平臺和Spark平臺等大數(shù)據(jù)開發(fā)相關(guān)技術(shù)知識。
在大數(shù)據(jù)培訓(xùn)班學習開發(fā)技術(shù)知識,除了學習開發(fā)技術(shù)基礎(chǔ)知識之外,還需要練習一些企業(yè)級項目實戰(zhàn)案例,讓小伙伴在學習開發(fā)技術(shù)知識的同時,積累更多的項目實戰(zhàn)經(jīng)驗,鍛煉學習在公司項目實戰(zhàn)中解決問題的方法。
一般情況下,在大數(shù)據(jù)培訓(xùn)班系統(tǒng)學習開發(fā)技術(shù)知識的培訓(xùn)周期是5-6個月的時間,培訓(xùn)結(jié)束之后,能夠達到初級開發(fā)工程師的技術(shù)水平,不過小伙伴在選擇大數(shù)據(jù)培訓(xùn)班的時候,一定要選擇適合自己的,靠譜的大數(shù)據(jù)培訓(xùn)班來學習。
學習方式是其中一個因素,最重要的是小伙伴能夠找到適合自己的學習方法,成功入門大數(shù)據(jù)開發(fā),在學習中要養(yǎng)成良好的學習習慣,學會善于反思和總結(jié)學習經(jīng)驗。尚硅谷大數(shù)據(jù)培訓(xùn)班是一個比較靠譜的線下面授教學的職業(yè)培訓(xùn)機構(gòu),在學習中練習企業(yè)級項目實戰(zhàn)案例,鍛煉小伙伴解決問題的能力,培訓(xùn)班還有大數(shù)據(jù)視頻供小伙伴下載學習!
http://www.atguigu.com/bigdata_video.shtml
學習大數(shù)據(jù)很多的初學者一開始的時候?qū)τ诖髷?shù)據(jù)學習學習的內(nèi)容有那些?要學習多久?零基礎(chǔ)難不難學習?等一系列問題都存在一大堆的疑問,今天小編就針對這個問題為大家來一一解答。
既然是學習大數(shù)據(jù)及時,那我們第一時間就應(yīng)該是去了了解一下什么是大數(shù)據(jù),大數(shù)據(jù)都要學習那些知識,只有知道了這倆點我們才能夠更好的進行下邊的學習。
第一階段:JavaSE基礎(chǔ)核心
第二階段:數(shù)據(jù)庫關(guān)鍵技術(shù)
第三階段:大數(shù)據(jù)基礎(chǔ)核心
第四階段:Spark生態(tài)體系框架&大數(shù)據(jù)高薪精選項目
第五階段:Spark生態(tài)體系框架&企業(yè)無縫對接項目
第六階段:Flink流式數(shù)據(jù)處理框架
大數(shù)據(jù)學習,要學多久?一般是要看你自己的學習能力和你選擇的學習方式,如果學習能力比較強的話學習時間就好短一些,這個一般自學的話大概在一年左右的時間,如果是選擇大數(shù)據(jù)培訓(xùn)進行學習的話,一般的學習周期是在6個月左右的時間。
這里小編建議在選擇學習方式的時候,不管是自學還是大數(shù)據(jù)培訓(xùn)都不要盲目的去根據(jù)別人的情況和建議進行選擇,而是要更加自己是實際情況去分析選擇適合的學習方式是最好的。
學習積云大數(shù)據(jù)課程包括:Java入門、Java進階、數(shù)據(jù)庫編程、web應(yīng)用實戰(zhàn)、經(jīng)典&主流框架、互聯(lián)網(wǎng)流行技術(shù)、互聯(lián)網(wǎng)解決方案
要學一年左右,這里說的是有一些基礎(chǔ)的。對于0基礎(chǔ)的同學來說可能要學更長的時間
基礎(chǔ)階段:Linux、Docker、KVM、MySQL基礎(chǔ)、Oracle基礎(chǔ)、MongoDB、redis。
hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、歷史,HDFS工作原理,YARN介紹及組件介紹。
大數(shù)據(jù)存儲階段:hbase、hive、sqoop。
大數(shù)據(jù)架構(gòu)設(shè)計階段:Flume分布式、Zookeeper、Kafka。
大數(shù)據(jù)實時計算階段:Mahout、Spark、storm。
大數(shù)據(jù)數(shù)據(jù)采集階段:Python、Scala。
大數(shù)據(jù)商業(yè)實戰(zhàn)階段:實操企業(yè)大數(shù)據(jù)處理業(yè)務(wù)場景,分析需求、解決方案實施,綜合技術(shù)實戰(zhàn)應(yīng)用。
大數(shù)據(jù)(big data,mega data),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。
大數(shù)據(jù)的5個“V”,或者說特點有五層面:
第一,數(shù)據(jù)體量巨大
從TB級別,躍升到PB級別。
第二,數(shù)據(jù)類型繁多
前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。
第三,價值密度低
以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
第四,處理速度快
1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
0
回答0
回答10
回答0
回答1
回答0
回答10
回答0
回答10
回答0
回答