摘要:去吧,參加一個在上正在舉辦的實時比賽吧試試你所學到的全部知識微軟雅黑深度學習終于看到這個,興奮吧現在,你已經學到了絕大多數關于機器學習的技術,是時候試試深度學習了。微軟雅黑對于深度學習,我也是個新手,就請把這些建議當作參考吧。
如果你想做一個數據科學家,或者作為一個數據科學家你想擴展自己的工具和知識庫,那么,你來對地方了。
這篇文章的目的,是給剛開始使用Python進行數據分析的人,指明一條全面的Python學習路徑。這條路徑提供了用Python進行數據分析的必要步驟的一個全面概述。如果你已經有了一些基礎,或者不需要所有的內容,可以隨意調整學習路徑以適合自己,并讓我們知道你是怎么改動的。
0熱身運動
在開始學習之前,第一個需要回答的問題是
推薦這個30分鐘的錄像,它是DataRobot創始人Jeremy在2014年Python社區大會(PyCon)上的講話,它能夠讓你了解Python有多有用。小編注:建議在Wi-Fi連接下觀看。
1、設置你的計算機
既然你已經下定了決心,是時候設置你的計算機了。最簡單的方法是直接從Continuum.io下載Anaconda,它含有你Python生涯中需要的絕大多數好東東 。
https://store.continuum.io/cshop/anaconda/
這樣做的主要缺點是,即便有一些底層包已經有更新版本的時候,你還是需要等待Continuum更新Anaconda中的包。如果你只是剛剛開始,那這一點就不算是個問題。如果在安裝時遇到任何困難,你可以在下面這個網站找到在不同操作系統下安裝的詳細指引。
http://www.datarobot.com/blog/getting-up-and-running-with-python/?
2、學習基本知識
你應該從了解Python語言、庫和數據結構的基礎知識開始,這個來自Codecademy的教程是你開始學習的較佳選擇之一。
http://www.codecademy.com/tracks/python
在學完這個教程后,你應該可以輕松地用Python寫些小程序,并且對類和對象的含義也有了理解。
特別學習:Lists(列表),Tuples(元組),Dictionaries(字典),列表的內涵和字典的內涵。
完成作業:完成在HackerRank上的教程習題。這些作業應該能讓你的大腦因Python而“燃燒”。
備用資源:如果交互式編程學習不適合你,你也可以看看這個Google上的Python課程。這個兩天的課程,內容覆蓋了隨后會提到的一些內容。
https://developers.google.com/edu/python/。?
3、學習正則表達式
你將會大量使用它來進行數據清洗,特別是在處理文本數據。學習正則表達式的較好方法是完成這個課程
https://developers.google.com/edu/python/regular-expressions
并把這個“夾帶”(當然不是考試的小抄,是速查表)放在隨手可得的地方。
小編注:請上網站查看完整內容。
www.debuggex.com/cheatsheet/regex/python
完成“嬰兒取名”練習
https://developers.google.com/edu/python/exercises/baby-names
如果想(gou)要(dan)更多的練習,請學習這個文本清理的課程。該課程將會在數據清理的不同步驟給你挑戰。
http://www.analyticsvidhya.com/blog/2014/11/text-data-cleaning-steps-python/。
4、學習Python科學庫
有趣之事,始于此處!這里,簡要介紹不同的Python科學庫——NumPy, SciPy, Matplotlib和Pandas。那么,讓我們開始練習常用操作吧!
完整地練習NumPy操作課程,特別是NumPy的數組操作。這會建立一個好的基礎,為將要面臨的現實挑戰做準備。
http://wiki.scipy.org/Tentative_NumPy_Tutorial
接下來,看看SciPy的課程。完整學習簡介和基礎知識部分,剩余部分可根據個人需要進行學習。
http://docs.scipy.org/doc/scipy/reference/tutorial/
如果你猜下一個是Matplotlib教程,那就錯了!就我們目前的情況而言,它們太過全面了。事實上,把ipython筆記看到第68行(到animations)就基本可以了。
http://nbviewer.ipython.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-4-Matplotlib.ipynb
?最后,我們來看Pandas。它為Python提供了數據幀(DataFrame)的功能,類似于R語言。你也需要在這上面多花時間好好練習。對于所有中等規模的數據分析來說,Panda將會成為最有效的工具。從這個短小的10分鐘入門開始,了解一下Pandas。然后,... ...
http://pandas.pydata.org/pandas-docs/stable/10min.html?
然后,再看更詳細的課程
http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/。
你還可以看看“用Pandas進行探索性數據分析”(http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/)以及“用Pandas進行數據整合”(http://www.analyticsvidhya.com/blog/2014/08/baby-steps-python-performing-exploratory-analysis-python/)兩篇文章。其它資源:
?如果你需要一本有關Pandas和NumPy的教材,推薦Wes McKinney著的《Python for Data Analysis》
?下面這個網站,還有很多的教程可作為Pandas的學習材料。
http://pandas.pydata.org/pandas-docs/stable/tutorials.html
完成來自哈佛大學CS109課程的作業。
http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW1.ipynb
小編注:回復 可視化 查看【數據科學之5個較佳Python庫】,了解關于這些科學庫的更多介紹和學習資源。
5、有效的數據可視化
學完這個來自CS109的課程,你可以跳過前面的兩分鐘,接來下的內容非常精彩!
http://cm.dce.harvard.edu/2015/01/14328/L03/screen_H264LargeTalkingHead-16x9.shtml
跟著課程完成下面課程作業
http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW2.ipynb
6、學習Scikit-learn和機器學習
現在,我們來到了整個過程的實質部分。Scikit-learn是在Python中對機器學習最有用的庫。
學完來自哈佛大學2014年的CS109課程中第10講到第18講。你會全面了解機器學習,監督式學習算法(如回歸、決策樹、整體建模等)和非監督式學習算法(如聚類等)。切記,跟隨每一講,完成作業。
http://cs109.github.io/2014/pages/schedule.html
其它資源:
?如果有一本必讀的書,那就是《Programming Collective Intelligence》,非常經典,仍然是關于這方面較好的書之一
?另外,如果你需要技術上更清晰的解釋,可以選擇Andrew Ng(這位大牛的課,不該不知道吧?)課程 ,用Python完成其中的習題。
https://www.coursera.org/course/ml
Scikit-lean的教程(這個不能忘)
試著完成Kaggle上的這個挑戰
http://www.kaggle.com/c/data-science-london-scikit-learn
7、練習,練習,再練習
祝賀你,你做到了!現在,你已經擁有所需要的全部技能,只差練習了。哪里會有比在Kaggle上練習更好呢?上Kaggle與跟你一樣的數據科學家一較高下。去吧,參加一個在Kaggle上正在舉辦的實時比賽吧!試試你所學到的全部知識!
http://www.kaggle.com/
8、深度學習
終于看到這個,興奮吧?!現在,你已經學到了絕大多數關于機器學習的技術,是時候試試深度學習了。很有可能你已然知道什么是深度學習,萬一仍然需要一個簡要介紹,可以看看這個。
http://www.analyticsvidhya.com/blog/2014/06/deep-learning-attention/
對于深度學習,我也是個新手,就請把這些建議當作參考吧。最全面的資源在deeplearning.net上,在那里,你會找到所有的東西——講座、數據集、挑戰和教程。
http://deeplearning.net
如果想要了解神經網絡的基本知識,試著學習Geoff Hinton(這個大牛,你應該也是知道的吧)的課程
https://www.coursera.org/course/neuralnets
篇外話:假如你需要面向大數據的Python庫,請試試Pydoop和PyMongo。由于“大數據的學習路徑”本身就是一個完整的話題,因此,本文并未涉及。
來源:
1. http://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/
2. https://www.youtube.com/watch?v=CoxjADZHUQA【譯者簡介】
姚佳靈:家庭主婦,對數據處理和數據分析很感興趣,正在學習Python,希望能和大家多交流。
康欣:博士,多年從事圖像及數據處理和分析、計算機視覺、模式識別、機器學習、增強現實等領域的技術研究和創新應用,現為西門子中國研究院高級研究員。希望借此平臺,與大數據分析愛好者以及專家學者交流、合作。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4319.html
摘要:天真的幻想站不住腳以技術安身立命自從就讀軟件工程以來就曾是我一直追求的目標我相信這也是很多軟件人的目標只是參加業務開發后的種種讓我覺得這個信條在大部分業務開發中都只是一個天真的幻想打造技術專家不僅缺乏養成的環境也缺乏使用的機會拿自己來說我所 天真的幻想站不住腳 以技術安身立命,自從就讀軟件工程以來,就曾是我一直追求的目標,我相信這也是很多軟件人的目標;只是參加業務開發后的種種讓我覺得這...
摘要:是你學習從入門到專家必備的學習路線和優質學習資源。的數學基礎最主要是高等數學線性代數概率論與數理統計三門課程,這三門課程是本科必修的。其作為機器學習的入門和進階資料非常適合。書籍介紹深度學習通常又被稱為花書,深度學習領域最經典的暢銷書。 showImg(https://segmentfault.com/img/remote/1460000019011569); 【導讀】本文由知名開源平...
摘要:大家好,我是冰河有句話叫做投資啥都不如投資自己的回報率高。馬上就十一國慶假期了,給小伙伴們分享下,從小白程序員到大廠高級技術專家我看過哪些技術類書籍。 大家好,我是...
閱讀 3371·2021-11-22 09:34
閱讀 2857·2021-10-09 09:43
閱讀 1445·2021-09-24 09:47
閱讀 2199·2019-08-30 12:53
閱讀 998·2019-08-29 14:00
閱讀 3356·2019-08-29 13:17
閱讀 2269·2019-08-28 18:00
閱讀 1284·2019-08-26 12:00