{eval=Array;=+count(Array);}
大數據是我的研究方向之一,所以我來回答一下這個問題。
大數據專業是一個非常新的專業,早期有的學校開設了數據科學專業,后來隨著條件逐步成熟,一部分高校開設了大數據專業。大數據專業的教學內容主要集中在三個方面,一個方面是數學,因為大數據需要用到大量的算法,所以數學基礎對大數據研發人員來說還是非常重要的。一方面是統計學,大數據的很多內容是統計學的延伸,尤其是大數據分析領域。還有一方面是計算機技術,大數據是物聯網和云計算發展的必然產物,所以大數據的基礎就是計算機網絡技術。
大數據專業畢業的學生就業面非常廣,由于目前大數據正在由概念向產業轉換,所以大部分大數據專業的畢業生都在從事大數據平臺工程師的崗位,主要任務是搭建企業的大數據平臺以及開發一些平臺上的具體功能。
當然,未來大數據崗位涉及到算法分析師、算法實現工程師、數據分析師、BI工程師(還有很多細分崗位)、數據工程師(采集、整理等)、程序員等。
由于目前大數據領域的人才缺口比較大,所以目前從事大數據崗位的工程師待遇都非常不錯,相信在未來很長一段時間內,大數據相關崗位的待遇會明顯高于軟件行業平均水平。
另外,建議大數據專業的本科生繼續讀研,讀研會提供一個更好的研究平臺,也會明顯提升自己的職場競爭力。
我目前在帶大數據團隊做一些落地項目,我會陸續在頭條上寫一些大數據相關的科普文章,感興趣的朋友可以關注我的頭條號,相信一定會有所收獲。
如果有大數據方面的問題,或者是考研方面的問題,都可以咨詢我。
謝謝!
本人從事大數據以及相關行業,從目前大數據實際運用的角度來說一下這個問題。以下是我整理的近年來大數據相關好崗位以及崗位職責,技能需求需求,供參考
一,大數據開發
從事大數據開發工程師
崗位職責
1、利用Hadoop、Spark等技術在分布式系統上對海量歷史數據進行預處理,挖掘用戶信
息;
2、參與大數據基礎平臺的搭建和維護;
3、負責廣告投放項目管理平臺研發;
4、負責大數據計算處理平臺項目研發。
技術要求
1、熟練掌握c++/Java開發,具備扎實的程序設計基本功和學習能力
2、熟悉 Linux,熟悉 shell/perl/python/php 等腳本語言的一種或多種。
3、熟悉傳統數據庫MySQL。
4、熟悉MapReduce、Storm、Spark、Spark Streaming等大數據開發工具,對源代碼
有一定研究者優先;
5、熟悉linux環境,熟悉shell等腳本編程;
6、有大規模數據處理和日志處理經驗的優先。
7、有較強的人際溝通、協調能力,具備與技術人員溝通數據需求的能力;
8、具備良好的邏輯分析能力和解決實際問題的能力。
二,大數據運維
從事大數據運維工程師
崗位職責
1、負責大數據平臺整體軟硬件的日常運維;
2、分析平臺運行狀態,進行性能優化;
3、負責大數據平臺運行故障的分析、定位和解決;
4、負責新技術、新組件的技術探索、測試和應用;
5、支撐運維自動化系統的設計和開發。
崗位要求:
1、 熟悉hadoop生態圈主要開源技術組件及其工作原理,能閱讀相關源代碼,能順利閱讀英文文檔;
2、熟悉軟硬件設備、網絡原理,有豐富的大數據平臺部署、性能優化和運維經驗;
3、熟悉Linux,熟悉cacti、ganglia、zabbix等運維軟件,熟悉SaltStack、Ansible等自動化軟件,有python、java、shell編程基礎;
4、工作認真負責,有較強的學習能力、動手能力和分析解決問題的能力;
補充:
熟悉
Hadoop/Hbase/Hive/Presto/Yarn/Spark/Storm/Kafka/Elasticsearch/Flume等開源項目,有運維優化經驗者優先;
熟悉Linux操作系統的配置、管理及優化;
熟悉Python、Linux、shell,有ETL維護經驗、電信行業大數據維護經驗者優先
三,數據挖掘
從事數據挖掘工程師
崗位職責
1、對海量數據進行分析,建立數據挖掘算法,利用大數據對產品進行研究和建模,為用戶提供評估和預測等功能;
2、參與/負責用戶畫像、推薦等系統搭建,參與核心產品推薦場景算法的研發和優化;
3、采用先進的數據挖掘和機器學習算法,為公司業務部門提供決策依據;
4、搭建數據挖掘系統和機器學習系統,實現智能平臺的自動化流程。
1、具備強悍的編碼能力,有扎實的數據結構和算法功底;
2、優秀的學習能力、獨立分析問題和解決問題能力;
3、熟悉Linux開發環境,熟悉Python,PHP,Java等語言兩種以上;
4、熟悉基本的數據分析方法、數據挖掘、機器學習算法;
5、熟悉SPSS/Modeler/R/Python等至少一種數據挖掘工具;
6、熟悉Hadoop/Spark,有Elasticsearch,Solr,Kafka,Flume等開源項目使用經驗
7、有畫像、廣告、推薦,搜索等算法方向實際工作經驗優先
四,BI(商務智能)工程師— (包括數據庫開發、BI開發工程師、ETL開發、報表開發、BI咨詢顧問)
崗位職責
1、獨立負責業務數據收集整理,構建經營分析和報表系統;
2、通過專題分析,對業務問題進行深入分析,為業務的策略、產品優化提供數據支持;
3、 以數據驅動業務為目標,進行數倉研發工作但不局限于數倉;
4、 參與數據倉庫ETL設計、開發和優化工作,保證數據準確、穩定、組織合理
崗位要求
1、掌握Oracle、MySQL、ODPS等數據庫開發技能,熟練應用開發、數據庫原理和常用性能優化和擴展技術;
2、掌握數據倉庫建設、熟悉大數據平臺操作,離線計算Hive/MR研發、實時計算spark streaming/storm;
3、熟悉ETL邏輯、OLAP設計和數據分析技術(聚類分析、回歸分析、決策樹等)、數據挖掘相關算法;
4、熟悉Linux系統環境開發,掌握shell、perl、python等至少一種開發語言。
6. 有較強的邏輯/概率思維能力,善于分析、歸納、描述、溝通、和解決問題。
補充(根據企業工具區別)
1、全面熟知數據倉庫設計理念、設計方法,熟練掌握Informatica、Kettle、Automation等至少一種ETL工具;
2、熟練掌握SAP BO、MSTR、SmartBI、Cognos、QV等至少一種BI工具;
3、熟悉數據倉庫,掌握BI相關工具,如ETL工具(SSIS, SAP DataService)、OLAP工具(SSAS)和前端展示工具(BO CR/Webi)
五,數據可視化
從事可視化工程師
崗位職責
1、負責大數據平臺業務邏輯和數據可視化功能,數據可視化組件研發;
2、搭建基礎的可視化分析平臺,設計數據分析應用的架構,實現實時數據調用與展示;
3、數據相關性分析與根因分析;
4、支持客戶需求分析和數據分析。
崗位要求
1、熟練Web前端技術(SVG/HTML5/JavaScriptdeJS等);
2、熟練D3、Echarts、Three.js、WebGL等開源數據可視化庫和技術;
3、有Web服務器端編程語言(如Node/Java)開發經驗優先;
4、有blender(以及blender game engine)或者unity 3d或unreal engine等開發經驗優先
一些BI崗位的詳細介紹
BI工程師(開發、咨詢、實施)
BI開發工程師
崗位職責
1、執行在框架設計的基礎上完成具體組件的概要設計、詳細設計編寫;
2、完成BI系統具體組件的代碼編寫、單元測試;
3、參與BI系統報表平臺技術架構設計,數據庫結構設計;
4、參與BI系統數據倉庫的構架、建模和實現。
5、負責向需求方提供數據及業務分析服務,負責整體風控模型的優化,理解并掌握BI報表需求;
崗位要求
1、有數據倉庫或統計分析類項目開發經驗或較深的理論知識;
2、熟悉Cognos、Webfocus、ireport等數據分析報表開發工具和技術;
3、熟悉Linux/Unix服務器,并了解一些基本的操作命令;
4、至少熟悉Informix/Oracle/SQL Server等數據庫中的一種,并在此基礎上有過ETL程序或存儲過程的開發。
5、能夠熟練應用JSP/Servlet/JavaScript等WEB開發技術,熟悉Spring,Struts2和iBATIS等主流的開發框架,熟悉BIRT、JasperReports等開源報表工具;
6、熟悉Linux Shell、Perl等腳本語言,熟悉ORACLE數據庫,PL/SQL編程;
7、熟悉BI系統技術框架,熟悉數據采集流程,對數據倉庫有比較深入的了解;
8、熟悉行業經營分析系統(BI)架構及實現者優先。
BI咨詢顧問
崗位職責
1、分析客戶的數據要求;
2、負責Qlikview/Tableau BI項目的實施和報表開發;
3、負責校驗數據,保障數據的準確;
4、 負責客戶需求收集、分析,梳理業務流程解決方案,項目的拓展支撐;
5、撰寫需求規格書及各類相關文檔;
6、良好的團隊合作、協調、問題處理能力;
崗位要求
1、對BI有系統的認知;
2、熟練使用Qlikview,Tableau等前端工具;
3、熟悉MS SQL Server,熟練運用SQL語言;
4、前端報表偏業務方向需熟悉主流報表工具或新興前端報表工具Qlikview、Tableau等優先考慮;
6、后臺數據處理需熟悉掌握至少一種后臺ETL開發工具,例:Informatica powercenter、Datastage、OWB、微軟DTS、Kettle等;
7、后臺數據建模需熟練掌握至少一種數據挖掘算法和建模方法,了解建模;
8、良好的英文能力,能快速閱讀和撰寫英文技術文檔者優先。
BI實施工程師
崗位職責
1、負責BI項目的需求調研與分析工作;
2、負責BI項目的方案設計、實施或項目管理工作;
3、參與公司BI產品和項目的實施開發工作。
崗位要求
1、良好的數據庫基礎,精通SQL,深入掌握Oracle或其他數據庫,能夠進行數據庫調優;
3、熟悉ORACLE、MYSQL、SQLSERVER等主流數據庫的安裝及配置、熟悉SQL語句編寫及ETL、BI實施工作;
3、熟悉LINUX操作系統安裝及常用命令;
4、熟悉BI基礎理論知識,使用過BI相關產品;
5、參與BI相關項目的實施工作;
6、熟悉TOMCAT、JDK等安裝及參數配置;
7、具備較強的語言表達能力,能與客戶順暢溝通或產品介紹;
8、具備較強的學習與動手能力,能夠適應全國范圍內出差;
9、熟悉hadoop大數據及自動化運維工具經驗者的待遇從優。
ETL工程師
崗位要求:
具備一般的JAVA應用開發能力;
熟悉Oracle下的分區,表空間, SQL性能調優等操作;
熟悉常用的ETL工具,如:kettle, informatica等;
熟悉常用的報表工具,如:Cognos等。
崗位職責:
負責行業生產交易系統數據倉庫開發,存儲過程編寫,數據模型研究,大數據研究
六,數據分析工程師
崗位職責:
1、進行業務和企業經營行為分析,梳理業務規律和業務需求;
2、將業務需求轉化為數據需求,發現數據應用場景,梳理指標體系;
3、使用合適的數據分析工具進行數據分析和模型設計;
4、提出基于數據的結果和分析建議,根據分析結果進行行業研究、評估和預測;
5、編寫數據分析報告;
6、完成領導交辦的其他工作。
崗位要求
1、本科以上學歷,計算機、數學、統計學等相關專業;
2、深刻理解大數據分析原理及相關應用;
3、熟練掌握主流數據庫技術;
4、精通數據分析、挖掘工具與方法,如SAS、R、Python、EXCEL等;
5、敏銳的數據觀察和分析能力,及時發現和分析其中隱含的變化和問題并給出建議;
6、良好的溝通能力和團隊精神,較強的學習能力,能承擔一定的工作壓力;
互聯網是一個快速發展的行業,如果你剛上大學,可能四年出來就會有變化!所以還是注意相關咨詢!希望能夠幫到你,歡迎關注,討論
1、大數據開發工程師
開發,建設,測試和維護架構,負責公司大數據平臺的開發和維護,負責大數據平臺持續集成相關工具平臺的架構設計與產品開發等
2、數據分析師
收集,處理和執行統計數據分析;運用工具,提取、分析、呈現數據,實現數據的商業意義,需要業務理解和工具應用能力
3、數據挖掘工程師
數據建模、機器學習和算法實現;商業智能,用戶體驗分析,預測流失用戶等;需要過硬的數學和統計學功底以外,對算法的代碼實現也有很高的要求
4、數據架構師
需求分析,平臺選擇,技術架構設計,應用設計和開發,測試和部署;高級算法設計與優化;數據相關系統設計與優化,需要平臺級開發和架構設計能力
5、數據科學家
數據挖掘架構、模型標準、數據報告、數據分析方法;利用算法和模型提高數據處理效率、挖掘數據價值、實現從數據到知識的轉換。等等。
加米谷大數據培訓,6月大數據開發0基礎班、提高班,預報名中
相關:大數據培訓相關的職業崗位及主要工作內容
https://www.toutiao.com/i6642200037784814094/
第一次工業革命是機械化,第二次電氣化,第三次信息化,第四次智能化。這次的工業革命從規模,從對每個人的生活、對整個社會的影響的廣泛性和深度,都要遠遠大于前幾次。在技術上來講,核心技術是通過數據來觀察世界,通過數據來獲取知識。
站在浪尖上面臨150萬的人才緊缺的大數據。
大數據主要分成三大類:大數據系統研發類、大數據應用開發類、大數據分析類,崗位包括大數據系統架構、大數據開發、大數據系統分析、數據分析、數據挖掘、大數據可視化、數據庫管理、數據遷移等。
據有關媒體報道,目前行業最稀缺的人才:
1、java大數據開發
2、大數據精準營銷
3、大數據分析師(金融企業急需和緊缺的,尤為突出)
4、數據架構師
當下最熱門的崗位兩大類:一類是應用類,另一類是系統類。
應用類
應用類,偏向于數據分析和數據應用,經常說到的數據分析、數據挖掘,就是典型的應用技術。這一類職位,要求采用適當的分析和挖掘方法對數據進行分析,提取數據中隱含的業務信息,來支撐企業決策。
最典型的職位就是:大數據分析師。
主要崗位有:
1、大數據分析師:主要是指,基于業務問題,能夠選擇最合適的數據分析和數據挖掘方法,提取數據中的業務信息,從而支撐業務決策。要求熟悉數據分析/挖掘過程,掌握數據分析/挖掘方法,理解數據分析模型,熟練操作數據分析工具(比如Excel、SPSS、SAS等)。一般對于大數據分析師,其能力要求比較全面,不管是業務邏輯、還是分析方法、模型、可視化,都要求全面掌握。
2、業務數據分析師:側重于商業理解,要求能夠將業務問題和商業問題,轉化為大數據的問題,并將分析結果從業務層面進行解讀,從而形成業務建議和業務策略。要求熟悉業務邏輯和業務模型,掌握數據分析思路,能將數據可視化,對數據解讀等。當然,類似的職位還有大數據觀察員、大數據研究員等等,這些都側重于商業理解。
3、大數據建模/算法師:側重于數據建模,能夠圍繞業務問題,構建合適的數據分析框架和分析模型,將業務問題進行分解,從而達到定性或定量來描述業務的目的。要求熟悉數據建模、模型評估、模型優化、模型應用等等。
4、大數據算法師:側重于數據模型的實現算法研究、設計與實現,為達到分析目的,對實現算法進行分析、選擇與優化,確保實現性能及效果。一般情況下,算法師往往和建模師在一起工作。
系統類
系統類,偏向于系統研發,比如Hadoop系統、云計算,就屬于系統類技術。這一類職位,要求熟悉Hadoop大數據平臺的核心框架和組件,能夠基于大數據平臺來寫代碼開發應用,支撐業務應用。
最典型的職位就是:大數據工程師。
1、大數據開發工程師:負責大數據系統的開發工作,能夠運用編程語言進行應用程序的開發、測試和維護,實現產品功能。要求掌握編程語言,如JAVA、R、Python等等。
2、大數據架構師:負責大數據系統的平臺架構設計、平臺構建。要求熟悉Hadoop/Storm/Spark等平臺,熟悉整個生態系統的組件,有平臺級開發和架構設計能力等等。
3、大數據運維工程師:側重于大數據平臺運維管理,包括系統運維規劃、系統監控、系統優化等等,保障大數據平臺服務的穩定性和可用性。掌握平臺各組件的安裝、配置與調試,有良好的系統性能優化及故障排除能力。
4、大數據庫管理員:側重于數據庫/數據倒倉庫的設計、開發、管理和優化,監控數據庫的性能、故障檢測和排除,包括數據采集,數據庫架構設計,空間和容量規劃,性能優化,數據安全和隱私,數據容錯,等等。
當然,在不同的企業中,職位的名稱和叫法有所不同,或者會衍生出新的職位,但基本的崗位職責是類似的。
1、大數據系統架構師
大數據平臺搭建、系統設計、基礎設施。
技能:計算機體系結構、網絡架構、編程范式、文件系統、分布并行處理等。
年薪百萬百度大數據架構師需要掌握什么技術?
大數據極為龐大。如今每天為我們創造出約2.3萬億GB數據,這意味著數據世界每兩年都將增長一倍。那么,展望即將到來的2018年,大數據領域會出現哪些變化?這些變化又會給我們造成怎樣的影響!
(1)、我們終將利用暗數據;
(2)、 結構化與非結構化邊界的消失;
(3)、CDO快速崛起;
(4)、量子計算進入公眾視野。
那么,大數據架構師需要掌握什么技術?
(1)、統計分析
大數定律、抽樣推測規律、 秩和檢測 、回歸分析、方差分析等
(2)、可視化輔助工具
Excel 、PPT、Xmind 、Visio
(3)、大數據處理框架
Hadoop 、 Kaffka、Storm 、ELK、Spark
(4)、數據庫
SQlite 、MySQL 、MongoDB 、Redis 、Cassandra 、HBase
(5)、數據倉庫/商業智能
SSIS數據倉庫、SSAS MDX多維數據表Ssrs、DW2.0
(6)、數據挖掘工具
Matlab、SAS、SPSS、R、Python
(7)、人工智能/挖掘算法
機器學習、數據結構一致性、常用算法
(8)、編程語言
Python、R、Ruby、Java
2、大數據系統分析師
面向實際行業領域,利用大數據技術進行數據安全生命周期管理、分析和應用。
技能:人工智能、機器學習、數理統計、矩陣計算、優化方法。
3、大數據開發工程師
圍繞大數據系平臺系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大數據平臺的核心框架。深入掌握如何編寫MapReduce的作業及作業流的管理完成對數據的計算, 熟練掌握Hadoop整個生態系統的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠實現對平臺監控、輔助運維系統的開發。
通過學習一系列面向開發者的Hadoop、Spark等大數據平臺開發技術,掌握設計開發大數據系統或平臺的工具和技能,能夠從事分布式計算框架如Hadoop、Spark群集環境的部署、開發和管理工作,如性能改進、功能擴展、故障分析等。
4、數據分析師
不同行業中,專門從事行業數據搜集、整理、分析,并依據數據做出行業研究、評估和預測的專業人員。在工作中通過運用工具,提取、分析、呈現數據,實現數據的商業意義。
作為一名數據分析師,至少需要熟練SPSS、STATISTIC、Eviews、SAS、大數據魔鏡等數據分析軟件中的一門,至少能用Acess等進行數據庫開發,至少掌握一門數學軟件如matalab、mathmatics進行新模型的構建,至少掌握一門編程語言。總之,一個優秀的數據分析師,應該業務、管理、分析、工具、設計都不落下。
5、數據挖掘工程師
做數據挖掘要從海量數據中發現規律,這就需要一定的數學知識,最基本的比如線性代數、高等代數、凸優化、概率論等。經常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapReduce寫程序,再用Hadoop或者Hyp來處理數據,如果用Python的話會和Spark相結合。
6、大數據實施工程師:能熟練架設數據庫.大數據分析生態系統,通過Hive編寫常見的 MapReduce程序。
7、用戶交互技術工程師
大數據所提供的用戶交互方式主要有五種類型,分別是統計分析和數據挖掘、任意查詢和分析、立方體分析、企業報表、報表分發和預警,它們在交互程度和用戶群類型及規模上各有差異。
8、大數據可視化工程師
隨著大數據在人們工作及日常生活中的應用,大數據可視化也改變著人類的對信息的閱讀和理解方式。從百度遷徙到谷歌流感趨勢,再到ucloud云推出縣域經濟可視化產品,大數據技術和大數據可視化都是幕后的英雄。
9、大數據采集與管理師
大數據浪潮,洶涌來襲,與互聯網的發明一樣,這絕不僅僅是信息技術領域的革命,更是在全球范圍加速企業創新、引領社會變革的利器。現代關系學之父德魯克有言,預測未來最好的方法,就是去創造未來。而“大數據戰略”,則是當下領航全球的先機。“大數據”(BigData)指一般的軟件工具難以捕捉、管理和分析的大容量數據。“大數據”之“大”,并不僅僅在于“容量之大”,更大的意義在于:通過對海量數據的交換、整合和分析,發現新的知識,創造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”。“大數據”能幫助企業找到一個個難題的答案,給企業帶來前所未有的商業價值與機會。大數據同時也給企業的IT系統提出了巨大的挑戰。通過不同行業的“大數據”應用狀況,我們能夠看到企業如何使用大數據和云計算技術,解決他們的難題,靈活、快速、高效地響應瞬息萬變的市場需求。
10、數據安全師
從事數據安全的系統管理與監測工作,數據安全在大數據行業極為重要,因此數據安全師的地位遠遠高于線下生活中保安的地位。
11、數據營銷師
大家一看不算很新,但是實際上這個職位與過去的營銷崗位除了有相近的傳播、推廣、溝通說服與信息匯集的功能以外,在今天的數據營銷師會遇到的最大問題是客戶提出了問題,而這個問題或者需求是原來的大數據產品或者技術不能完全解決的,因此營銷過程帶有較強的探索性溝通與尋求合作研發的特性。
同時,數據營銷師往往需要一定的架構能力,而且能夠理解數據架構的邏輯,從而能夠創造性地推廣前沿性的數據產品與服務。
12、數據科學家
數據科學家是指能采用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,并能尋找新的數據洞察的工程師或專家(不同于統計學家或分析師)。一個優秀的數據科學家需要具備的素質有:懂數據采集、懂數學算法、懂數學軟件、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。
13、大數據分析架構師
梳理業務數據的來源、定義、邏輯,根據多樣化的業務需求制定、優化報表;l 理解并分析相關產品和制造流程現狀,根據業務需求分析挖掘數據規律、趨勢、關注點,為產品制造業務提供決策支持;l 基于海量數據,通過機器學習和AI的方法,為個人電腦和手機產品制造業務提供個性化服務,提升制造效率和質量;l 負責相應安全AI模型設計,研發適合在業務中使用的模型、算法和工具,以支持數據分析需求和模擬預測業務場景。l 結合業務層面數字化項目,開發系統數據接口及建立分析預判機制,實現數據定制可視化、預警、模擬、決策輔助。
14、大數據解決方案架構師
負責大數據業務的售前技術支持,能獨立進行售前工作,包括并不限于客戶需求調研、解決方案編制和技術交流;
對競爭產品和方案進行競爭分析和對比,對市場競爭形勢進行總結;
配合銷售團隊培訓代理商合作伙伴,并提供相關培訓和技術支持;
分析、撰寫和總結公司產品的行業應用方案。
不同的平臺對應不同的職位
1、數據平臺
Data Platform,構建、維護穩定、安全的大數據平臺,按需設計大數據架構,調研選型大數據技術產品、方案,實施部署上線。對于大數據領域涉及到的大多數技術都要有所了解,并精通某一部分,具備分布式系統的知識背景;
對應職位:大數據架構師,數據平臺工程師
2、數據采集
Data Collecting,從Web/Sensor/RDBMS等渠道獲取數據,為大數據平臺提供數據來源,如Apache Nutch是開源的分布式數據采集組件,大家熟知的Python爬蟲框架ScraPy等。
對應職位:爬蟲工程師,數據采集工程師
3、數據倉庫
Data Warehouse,有點類似于傳統的數據倉庫工作內容:設計數所倉庫層級結構、ETL、進行數據建模,但基于的平臺不一樣,在大數據時代,數據倉庫大多基于大數據技術實現,例如Hive就是基于Hadoop的數據倉庫。
對應職位:ETL工程師,數據倉庫工程師
3、數據處理
Data Processing,完成某些特定需求中的處理或數據清洗,在小團隊中是結合在數據倉庫中一起做的,以前做ETL或許是利用工具直接配置處理一些過濾項,寫代碼部分會比較少,如今在大數據平臺上做數據處理可以利用更多的代碼方式做更多樣化的處理,所需技術有Hive、Hadoop、Spark等。隨便說下,千萬不要小看數據處理,后續的數據分析、數據挖掘等工作都是基于數據處理的質量,可以說數據處理在整個流程中有特別重要的位置。
對應職位:Hadoop工程師,Spark工程師
5、數據分析
Data Analysis,基于統計分析方法做數據分析:例如回歸分析、方差分析等;大數據分析例如Ad-Hoc交互式分析,SQL on Hadoop的技術有:Hive、Impala、Presto、Spark SQL,支持OLAP的技術有:Kylin;
對應職位:數據分析師
6、數據挖掘
Data Mining,是一個比較寬泛的概念,可以直接理解為從大量數據中發現有用的信息。大數據中的數據挖掘,主要是設計并在大數據平臺上實現數據挖掘算法:分類算法、聚類算法、關聯分析等。
對應職位:數據挖掘工程師
7、機器學習
Machine Learning,與數據挖掘經常一起討論,甚至被認為是同一事物。機器學習是一個計算機與統計學交叉的學科,基本目標是學習一個x->y的函數(映射),來做分類或者回歸的工作。之所以經常和數據挖掘合在一起講是因為現在好多數據挖掘的工作是通過機器學習提供的算法工具實現的,例如個性化推薦,是通過機器學習的一些算法分析平臺上的各種購買,瀏覽和收藏日志,得到一個推薦模型,來預測你喜歡的商品。
對應職位:算法工程師,研究員
8、深度學習
Deep Learning,是機器學習里面的一個topic(非常火的Topic),從深度學習的內容來看其本身是神經網絡算法的衍生,在圖像、語音、自然語言等分類和識別上取得了非常好的效果,大部分的工作是在調參。不知道大家有否發現現在的Google翻譯比以前的要準確很多,因為Google在去年底將其Google翻譯的核心從原來基于統計的方法換成了基于神經網絡的方法;
對應職位:算法工程師,研究員
9、數據可視化
Data Visualization,將分析、挖掘后的高價值數據用比較優美、靈活的方式展現在老板、客戶、用戶面前,更多的是一些前端的東西,也可能要求有一定的美學知識。結合使用者的喜好,以最恰當的方式呈現數據價值;
對應職位:數據工程師,BI工程師
10、數據應用
Data Application,從以上的每個部分可以衍生出的應用,例如廣告精準投放、個性化推薦、用戶畫像等。
對應職位:數據工程師
從數據科學家到數據架構師,大數據職場中的核心新崗位
任何新行業興起的時候必然伴隨著行業的深化與細化,伴隨著新職業崗位的生長,大數據行業也不例外。大家都說大數據,很多人甚至省略掉了數據,其實我們今天很多朋友做的最多算數據行業,還遠不是大數據行業,因為還沒有做數據源的整合、不同結構數據源的清理與對接、數據的貫通分析與實時共享;即使已經是大數據行業,那么屬于大數據硬件行業(如制造、銷售、管理大數據服務器)還是軟件行業(開發大數據管理系統、數據內容的軟件化整合與開發應用)也是不一樣的;就算同是大數據軟件行業,那么是屬于數據庫管理與運行維護,還是屬于數據應用就是差異行業;同樣是數據應用行業,數據資源的轉移應用與精準匹配應用,與基于深度分析的決策應用,也是深度細分的差異行業;在大數據決策應用行業中,基于大數據分析的人工應用模式與基于大數據智能的自動化應用模式,可以看成不同的技術含量的精度細分行業。零點有數就是屬于最后這個類別的大數據智能應用服務機構。
而在這樣的行業中,我們會看到不少新興的職業崗位興起,其中不少人已經對數據科學家這一說法有認識,他們往往是數據模型或者說算法的設計者,也是復雜算法的修正優化與管理者;數據營銷師,大家一看不算很新,但是實際上這個職位與過去的營銷崗位除了有相近的傳播、推廣、溝通說服與信息匯集的功能以外,在今天的數據營銷師會遇到的最大問題是客戶提出了問題,而這個問題或者需求是原來的大數據產品或者技術不能完全解決的,因此營銷過程帶有較強的探索性溝通與尋求合作研發的特性;數據工程師是與數據科學家合作實施具體的數據管理與開發工作的技術白領,今天絕大部分數據工程師是邊干邊學,一般他們往往是學習計算機或者數據科學出身的初級專業人員;數據挖掘師,在海量數據中從事數據分類、清洗、標簽與檢核工作;數據安全師,從事數據安全的系統管理與監測工作,數據安全在大數據行業極為重要,因此數據安全師的地位遠遠高于線下生活中保安的地位。在所有這些崗位以外,有一個崗位往往是很少為人提及,但實際上至為重要的,那就是數據架構師。數據架構師需要判斷在某一領域、行業的基本趨勢與特點,熟悉開放式關鍵中的最佳標桿與前沿和典型做法,對于半封閉與體系內需要具備敏銳與犀利的洞察能力,由此而能來定義數據應用任務或者項目的目標與疆界、核心工作內容與指標、路線圖與時間表,其中涉及到在多大意義上要體現本任務與宏觀需要的契合、與周圍可能有的其他關聯系統的對接口、要素保障與條件保障、危機測定與安全管理機制。架構師需要將總體目標、要素關系、推進步驟能夠在合理構設中藍圖化與實現優化整合。與設計師不同的是,架構師不只是藍圖設計者,也是藍圖可行性的負責人與推進者、協調者。
盡管我們在前面描述大數據行業的時候有一種介紹序列,其實在實際的大數據應用中,我們可以反過來看我們的大數據需要,然后設定我們在大數據應用、軟硬件建設中的需要,這也是數據架構師所可能設計的工作內容。而我們所說的數據科學家,在一定程度上是鏈接與細化數據架構師工作的,而數據營銷師往往需要一定的架構能力,而且能夠理解數據架構的邏輯,從而能夠創造性地推廣前沿性的數據產品與服務。如果我能夠大致提出一個典型大數據智能服務機構中這幾類崗位的人員比例,那么它們大致是:數據架構師:數據營銷師:數據科學家:數據工程師:數據挖掘師:數據安全師=1:2:3:30:60:5。而從人才市場的供應來說,實際上越是后面的崗位越是可以依靠專業機構培訓的,越是前面的人才往往是在一定專業基礎上在實際工作涌現的具有特殊技能的營運人才而需要數據機構領導人去留心發現。
由于國內高校2016年開始開設大數據本科專業,目前還沒有畢業生流向市場,造成人才嚴重短缺,所以大數據人才待遇較高。
初級崗位(3—5年):15000—25000月/元;
中級崗位(5—10年):25000—35000月/元;
高級崗位(10年以上):40—100萬/年。
如大數據系統架構師、大數據分析架構師、數據科學家等。
總之,選擇大數據專業,從事大數據工作,待遇高,前景好!
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答4
回答