{eval=Array;=+count(Array);}
推薦的學習書單
1.《統計學習基礎 數據挖掘、推理與預測》
盡管應用的是統計學方法,但強調的是概念,而不是數學。《統計學習基礎:數據挖掘、推理與預測》內容廣泛,從有指導的學習(預測),到無指導的學習;從神經網絡、支持向量機,到分類樹、提升等主題,應有盡有,許多例子還附以彩圖,是同類書籍中介紹最全面的。計算和信息技術的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量數據。理解這些數據是一種挑戰,這導致了統計學領域新工具的發展,并延伸到諸如數據挖掘、機器學習和生物信息學等新領域。
2.《模式分類》第二版
除了保留了第1版的關于統計模式識別和結構模式識別的主要內容以外,讀者將會發現新增了許多近25年來的新理論和新方法,其中包括神經網絡、機器學習、數據挖掘、進化計算、不變量理論、隱馬爾可夫模型、統計學習理論和支持向量機等。
3.《推薦系統實踐》
過大量代碼和圖表全面系統地闡述了和推薦系統有關的理論基礎,介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試),總結了當今互聯網領域中各種和推薦有關的產品和服務。
4.《深入搜索引擎–海量信息的壓縮、索引和查詢》
理論和實踐并重,深入淺出地給出了海量信息數據處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在于不僅僅滿足信息檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。
5.《概率論與數理統計》
這本書不用過多介紹了吧,普遍大學里大一時期的教科書,只恨當年沒聽課啊,現在正在慢慢啃。
6.《大數據:互聯網大規模數據挖掘與分布式處理》
主要內容包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。
7.《Web數據挖掘》
信息檢索領域的書籍,該書深入講解了從大量非結構化Web數據中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web信息采集機制、Web標引機制以及基于關鍵字或基于相似性搜索機制),然后系統地描述了Web挖掘的基礎知識,著重介紹基于超文本的機器學習和數據挖掘方法,如聚類、協同過濾、監督學習、半監督學習,最后講述了這些基本原理在Web挖掘中的應用。《Web數據挖掘》為讀者提供了堅實的技術背景和最新的知識。
8.《數據之巔》
對大數據追根溯源,提出當前信息技術的發展,已經讓中國獲得了后發優勢,中國要在大數據時代的全球競爭中勝出,必須把大數據從科技符號提升成為文化符號,在全社會倡導數據文化。
9.《深入淺出統計學》
本書涵蓋的知識點包括:信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態分布、統計抽樣、置信區間的構建、假設檢驗、卡方分布、相關與回歸等等,完整涵蓋AP考試范圍。
10.《矩陣分析》
本書從數學分析的角度論述矩陣分析的經典方法和現代方法,取材新,有一定的深度,并給出在多元微積分、復分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括:特征值、特征向量和相似性,酉等價和正規矩陣,標準形,Hermite矩陣和對稱矩陣,向量范數和矩陣范數,特征值和估計和擾動,正定矩陣,非負矩陣。
11.《統計學習方法》
本書全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦回歸與最大熵模型、支持向量機、提升方法、em算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最后一章總結外,每章介紹一種方法。敘述從具體問題或實例入手,由淺入深,闡明思路,給出必要的數學推導,便于讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題,列出了主要參考文獻。
12.《機器學習導論》
對機器學習的定義和應用實例進行了介紹,涵蓋了監督學習。貝葉斯決策理論。參數方法、多元方法、維度歸約、聚類、非參數方法、決策樹。線性判別式、多層感知器,局部模型、隱馬爾可夫模型。分類算法評估和比較,組合多學習器以及增強學習等。
《機器學習及其應用》:全書共分14章,內容涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社區推薦、機器翻譯等應用,以及互聯網應用對機。
謝謝邀請!
大數據的基礎學科有三個,分別是數學、統計學和計算機學,所以學習大數據首先要具備一定的數學基礎,包括高等數學、線性代數、概率論和離散數學,然后是基礎的統計學基礎和計算機基礎。
雖然大數據的崗位比較多,遍布數據的采集、整理、存儲、安全、分析、呈現等方面,但是比較核心的大數據崗位包括大數據平臺研發、大數據應用開發和大數據分析等,這些崗位雖然在知識結構上有一定的區別,但是基本的大數據知識是一定要具備的,下面做一個介紹。
第一:算法設計。大數據的核心是數據價值化,數據分析則是數據價值化的重要途徑,而算法設計則是數據分析的核心,因此算法設計在大數據知識體系中具有重要的地位。算法設計的書籍比較多,推薦讀一下《算法導論》,這是一本比較經典的算法設計類書籍。
第二:編程語言。算法設計之后就需要進行算法實現,算法實現就需要掌握編程語言,能夠實現算法的編程語言有很多,包括R、Python、Java等都可以,推薦系統學習一下Python語言,采用Python完成算法實現在目前的大數據和機器學習領域是一個比較普遍的選擇。
第三:大數據平臺。大數據平臺是大數據應用的基礎,目前比較常見的大數據平臺包括Hadoop和Spark。Hadoop平臺已經被業界使用多年,已經形成了一個比較完善的生態體系,建議從Hadoop開始學起。
第四:機器學習。機器學習與大數據的關系越來越密切,目前在大數據分析領域經常采用機器學習的方式。通過大數據進入機器學習領域,再全面進入人工智能領域也是目前一個比較常見的學習路線。
大數據的學習需要一個系統的過程,另外最好在學習的過程中能結合實際案例進行,這樣會有一個更好的效果。
作者簡介:中國科學院大學計算機專業研究生導師,從事IT行業多年,研究方向包括動態軟件體系結構、大數據、人工智能相關領域,有多年的一線研發經驗。
歡迎關注作者,歡迎咨詢計算機相關問題。
給大家推薦一份大數據書單
Flink是大數據處理領域最近冉冉升起的一顆新星,它可以基于Hadoop進行開發和使用,與Hadoop緊密結合。本書旨在幫助讀者從零開始快速掌握Flink的基本原理與核心功能,
并具有以下特點:
這是一本Flink入門級圖書,力求詳細而完整地描述Flink基礎理論與實際操作。
采用Flink 1.6版本寫作,案例豐富實用,做到學以致用。
細節與案例兼顧,深入淺出展現Flink技術精髓。
51CTO熱門網課配套教材,可與網課結合學習,快速提升大數據開發技能。
[美] 約西亞 L.卡爾森(Josiah,L.,Carlson) 著,黃健宏 譯
豆瓣評分8.0
李子驊 著
《Redis入門指南(第2版)》是一本Redis的入門指導書籍,以通俗易懂的方式介紹了Redis基礎與實踐方面的知識,包括歷史與特性、在開發和生產環境中部署運行Redis、數據類型與命令、使用Redis實現隊列、事務、復制、管道、持久化、優化Redis存儲空間等內容,并采用任務驅動的方式介紹了PHP、Ruby、Python和Node.js這4種語言的Redis客戶端庫的使用方法。
[美] 喬治·特魯希略(George Trujillo) 著,陳鵬,肖明興 譯
本書旨在幫助讀者了解和掌握不同虛擬化Hadoop選擇的優缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章,主要內容包括Hadoop平臺在企業轉型中扮演的重要角色、Hadoop基礎概念、YARN與HDFS、現代數據平臺、數據采集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主服務器、虛擬化Hadoop工作節點、私有云中的Hadoop即服務、Hadoop安裝以及Hadoop Linux配置。
[美] Lars George 著,代志遠,劉佳,蔣杰 譯
Apache HBase項目管理委員會主席Michael Stack作序推薦。作者Lars George是HBase Committer,HBase文檔的主要貢獻者,Cloudera公司解決方案架構師,主要為Hadoop和HBase提供技術支持、咨詢和培訓工作。這是一本介紹HBase內部機制的書,是HBase開發指南。本書探討了如何通過使用與HBase高度集成的Hadoop將HBase的可伸縮性變得簡單;把大型數據集分布到相對廉價的商業服務器集群中;使用本地Java客戶端,或者通過提供了REST、Avro和Thrift應用編程接口的網關服務器來訪問HBase;了解HBase架構的細節,包括存儲格式、預寫日志、后臺進程等;在HBase中集成MapReduce框架;了解如何調節集群、設計模式、拷貝表、導入批量數據和刪除節點等。 本書適合使用HBase進行數據庫開發的高級數據庫研發人員閱讀。
想從零開始的人,就不要過于依賴大數據。理由,大數據會制約你的想象力,桎梏你的開發能力。大數據對從零開始的人來說,只可借鑒利用,絕不可重用。常規領域里的應用,那是另一說。哈哈。對吧?
第一階段:大數據基礎語言的學習
推薦書籍:
本書為我們帶來了共78條程序員必備的經驗法則,針對你每天都會遇到的編程問題提出了有效、實用的解決方案。 書中的每一章都包含幾個"條目",以簡潔的形式呈現,自成獨立的短文,它們提出了具體的建議,對于Java平臺精妙之處的獨到見解,以及優秀的代碼范例。每個條目的綜合描述和解釋都闡明了應該怎么做,不應該怎么做,以及為什么。
第二階段: Linux&Hadoop生態體系Linux體系、Hadoop離線計算大綱、分布式數據庫Hbase、數據倉庫Hive、數據遷移工具Sqoop、Flume分布式日志框架
推薦書籍:
在大數據的背景下,我很少看到關于數據建模,數據層,數據處理需求分析以及數據架構和存儲實現問題。這本書卻提供了令人耳目一新的全面解決方案。
《Hadoop權威指南(中文版)》從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。
《Hive編程指南》是一本Apache Hive的編程指南,旨在介紹如何使用Hive的SQL方法HiveQL來匯總、查詢和分析存儲在Hadoop分布式文件系統上的大數據集合。
第三階段: 分布式計算推薦書籍:
《Spark 快速大數據分析》是一本為Spark 初學者準備的書,它沒有過多深入實現細節,而是更多關注上層用戶的具體用法。不過,本書絕不僅僅限于Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
本書采用理論與大量實例相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習算法。通過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習算法的復雜性,通過數據分析產生有價值的數據洞察力。
第四階段: 大數據項目實戰數據獲取、數據處理、數據分析、數據展現、數據應用
第五階段:大數據分析 —AI(人工智能)主要是講解Data Analyze數據分析基礎、數據可視化、sklearn中三類樸素貝葉斯算法以及python機器學習等提升個人能力的內容!
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答9
回答