{eval=Array;=+count(Array);}

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

問答專欄Q & A COLUMN

從零開始,如何學習數據挖掘?

LoftySoulLoftySoul 回答0 收藏1
問題描述:零基礎如何學習數據挖掘?從零學習的步驟有哪些?數據挖掘需要掌握哪些知識與技術?請詳細列明
收藏問題

5條回答

shiweifu

shiweifu

回答于2022-06-28 14:17

這個問題思考了很久,作為過來人談一談,建議在看我這篇回答之前先去了解一下數據挖掘的概念和定義。

在學習數據挖掘之前你應該明白幾點:

  • 數據挖掘目前在中國的尚未流行開,猶如屠龍之技。
  • 數據初期的準備通常占整個數據挖掘項目工作量的70%左右。
  • 數據挖掘本身融合了統計學、數據庫和機器學習等學科,并不是新的技術。
  • 數據挖掘技術更適合業務人員學習(相比技術人員學習業務來的更高效)
  • 數據挖掘適用于傳統的BI(報表、OLAP等)無法支持的領域。
  • 數據挖掘項目通常需要重復一些毫無技術含量的工作。

如果你閱讀了以上內容覺得可以接受,那么繼續往下看。

學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術尤其是計算機領域的技術發展是寬泛且快速更替的(十年前做網頁設計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術細節。但是技術在結合行業之后就能夠獨當一面了,一方面有利于抓住用戶痛點和剛性需求,另一方面能夠累計行業經驗,使用互聯網思維跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。

一、目前國內的數據挖掘人員工作領域大致可分為三類。

  • 1)數據分析師:在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢,商務智能,出分析報告。
  • 2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業里做機器學習算法實現和分析。
  • 3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新算法效率改進及未來應用。

二、說說各工作領域需要掌握的技能。

(1).數據分析師

  • 需要有深厚的數理統計基礎,但是對程序開發能力不做要求。
  • 需要熟練使用主流的數據挖掘(或統計分析)工具如SAS)、SPSS、EXCEL、BI工具等。
  • 需要對與所在行業有關的一切核心數據有深入的理解,以及一定的數據敏感性培養。
  • 經典圖書推薦:《概率論與數理統計》、《統計學》推薦David Freedman版、《業務建模與數據挖掘》、《數據挖掘導論》、《SAS編程與數據挖掘商業案例》、《Clementine數據挖掘方法及應用 》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等

(2).數據挖掘工程師

  • 需要理解主流機器學習算法的原理和應用。
  • 需要熟悉至少一門編程語言如(Python、C、C++、Java、Delphi等)。
  • 需要理解數據庫原理,能夠熟練操作至少一種數據庫(Mysql、SQL、DB2、Oracle等),能夠明白MapReduce的原理操作以及熟練使用Hadoop系列工具更好。
  • 經典圖書推薦:《數據挖掘概念與技術》、《機器學習實戰》、《人工智能及其應用》、《數據庫系統概論》、《算法導論》、《Web數據挖掘》、《 Python標準庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。

(3).科學研究方向

  • 需要深入學習數據挖掘的理論基礎,包括關聯規則挖掘 (Apriori和FPTree)、分類算法(C4.5、KNN、Logistic Regression、SVM等) 、聚類算法 (Kmeans、Spectral Clustering)。目標可以先吃透數據挖掘10大算法各自的使用情況和優缺點。
  • 相對SAS、SPSS來說R語言更適合科研人員The R Project for Statistical Computing,因為R軟件是完全免費的,而且開放的社區環境提供多種附加工具包支持,更適合進行統計計算分析研究。雖然目前在國內流行度不高,但是強烈推薦。
  • 可以嘗試改進一些主流算法使其更加快速高效,例如實現Hadoop平臺下的SVM云算法調用平臺--web 工程調用hadoop集群。
  • 需要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數據挖掘相關領域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
  • 可以嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
  • 可以嘗試為一些開源項目貢獻自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發現更多好玩的項目)。
  • 經典圖書推薦:《機器學習》 《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。

三、以下是個人對數據挖掘崗位的感受

真正從數據挖掘項目實踐的角度講,溝通能力對挖掘的興趣愛好是最重要的,有了愛好才可以愿意鉆研,有了不錯的溝通能力,才可以正確理解業務問題,才能正確把業務問題轉化成挖掘問題,才可以在相關不同專業人才之間清楚表達你的意圖和想法,取得他們的理解和支持。所以我認為溝通能力和興趣愛好是個人的數據挖掘的核心競爭力,是很難學到的;而其他的相關專業知識誰都可以學,算不上個人發展的核心競爭力。

說到這里可能很多數據倉庫專家、程序員、統計師等等都要扔磚頭了,對不起,我沒有別的意思,你們的專業對于數據挖掘都很重要,大家本來就是一個整體的,但是作為多帶帶一個個體的人來說,精力有限,時間有限,不可能這些領域都能掌握,在這種情況下,選擇最重要的核心,我想應該是數據挖掘技能和相關業務能力吧(從另外的一個極端的例子,我們可以看, 比如一個迷你型的挖掘項目,一個懂得市場營銷和數據挖掘技能的人應該可以勝任。這其中他雖然不懂數據倉庫,但是簡單的Excel就足以勝任高達6萬個樣本的數據處理;他雖然不懂專業的展示展現技能,但是只要他自己看的懂就行了,這就無需什么展示展現;前面說過,統計技能是應該掌握的,這對個人的迷你項目很重要;他雖然不懂編程,但是專業挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業務能力的人就可以圓滿完成了,甚至在一個數據源中根據業務需求可以無窮無盡的挖掘不同的項目思路,試問就是這個迷你項目,單純的一個數據倉庫專家、單純的一個程序員、單純的一個展示展現技師、甚至單純的一個挖掘技術專家,都是無法勝任的)。這從另一個方面也說明了為什么溝通能力的重要,這些個完全不同的專業領域,想要有效有機地整合在一起進行數據挖掘項目實踐,你說沒有好的溝通能力行嗎?

數據挖掘能力只能在項目實踐的熔爐中提升、升華,所以跟著項目學挖掘是最有效的捷徑。國外學習挖掘的人都是一開始跟著老板做項目,剛開始不懂不要緊,越不懂越知道應該學什么,才能學得越快越有效果。我不知道國內的數據挖掘學生是怎樣學的,但是從網上的一些論壇看,很多都是紙上談兵,這樣很浪費時間,很沒有效率。

另外現在國內關于數據挖掘的概念都很混亂,很多BI只是局限在報表的展示和簡單的統計分析,卻也號稱是數據挖掘;另一方面,國內真正規?;瘜嵤祿诰虻男袠I是屈指可數(銀行、保險公司、移動通訊),其他行業的應用就只能算是小規模的,比如很多大學都有些相關的挖掘課題、挖掘項目,但都比較分散,而且都是處于摸索階段,但是我相信數據挖掘在中國一定是好的前景,因為這是歷史發展的必然。

四、成為一名數據科學家需要掌握的技能圖

人一能之,己十之;人十能之,己千之。果能此道矣,雖愚,必明;雖柔,必強。與君共勉。

評論0 贊同0
  •  加載中...
diabloneo

diabloneo

回答于2022-06-28 14:17

作為有著兩三年數據科學從業經驗的過來人,我想結合自己一些數據科學淺薄的經驗來回答這個問題。

從零開始學習數據挖掘,首先需要明白數據挖掘是做什么的?

百度百科中的定義為:數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程,并且數據挖掘橫跨多個領域,涵蓋了統計學、數學、機器學習和數據庫等,是一個交叉學科。

所以,學習數據挖掘需要學習多種知識。

如果是已畢業工作中的小伙伴,建議先從編程能力實現一些數據分析需求來入手。因為工作中可能沒有太大塊的學習時間,想在工作的同時學習,就要有一定工程能力滿足老板的一些數據分析需求。適合數據挖掘的語言有編程語言python,以及偏統計的語言R,sas,數據采集語言sql等。python的優點是工作中懂的開發人員比較多,比較好溝通,近年來也是很火的語言。推薦的書籍:《跟老齊學python》,《笨方法學python》,《利用Python進行數據分析》等,網上的課程:

https://github.com/jackfrued/Python-100-Days

等。關于R語言我的經驗比較少,不好推薦。sas語言是金融機構用得比較多,因為是閉源的,從信息安全角度看比較合適。推薦的書:《The Little sas book》、《深入解析SAS》等。sql語言相對比較簡單,可以在工作中學習,就不作推薦了。

剛才提到實現一些數據分析需求也能有助于數據挖掘,因為數據挖掘除了剛才提到是交叉學科外,為了能讓項目落地產生價值還需要學習我們的業務,例如我們的數據挖掘是基于金融業務的或者電商業務的,那么就要學習金融業務或電商業務的相關知識。那么數據分析就是一個鍛煉業務敏感度的一個很好的方式。為了讓數據挖掘產生價值,業務經驗很重要,這是很多從業人員比較容易忽略的一個點。

后面進階的話就必須需要數學基礎和機器學習算法了,因為很多的機器學習算法乃至深度學習都是以數學、統計學理論為基礎。這也是市場上招聘數據挖掘工程師、算法工程師、數據分析師比較青睞數學相關專業的人士原因。數學推薦書籍:《高等數學》,《高等代數》,《概率論與數理統計》等。算法推薦書籍:《統計學習方法》,周志華的《機器學習》

至于大數據方面知識的學習也是比較重要的,在公司發展到后期階段積累了比較大數據量的時候,也是要學一些大數據挖掘的框架如hadoop和spark等。所以最近也有新的一個崗位大數據算法工程師也是要求大數據方面的從業經驗。

所以總的路線就是:編程語言=》數據分析實踐積累業務經驗=〉數學基礎和機器學習算法=》大數據框架。

當然每個人背景不一樣,所以學習路線都可能不同,但提到的這幾點是個人覺得比較重要的。有不同看法的大牛也歡迎來討論討論。

評論0 贊同0
  •  加載中...
luoyibu

luoyibu

回答于2022-06-28 14:17

大數據分三大方向10大崗位,可以考慮大數據ETL工程師方向

評論0 贊同0
  •  加載中...
isaced

isaced

回答于2022-06-28 14:17

關注我,我有分享數據分析相關的入門視頻教程,到進階視頻教程,pdf教程+源代碼

評論0 贊同0
  •  加載中...
CoderStudy

CoderStudy

回答于2022-06-28 14:17

數據挖掘:What?Why?How?

這個問題思考了很久,作為過來人談一談,建議先看下以前的一些回答。

  • 什么是數據挖掘?

  • 怎么培養數據分析的能力?

  • 如何成為一名數據科學家?



磨刀不誤砍柴工。在學習數據挖掘之前應該明白幾點:

  • 數據挖掘目前在中國的尚未流行開,猶如屠龍之技。

  • 數據初期的準備通常占整個數據挖掘項目工作量的70%左右。

  • 數據挖掘本身融合了統計學、數據庫和機器學習等學科,并不是新的技術。

  • 數據挖掘技術更適合業務人員學習(相比技術人員學習業務來的更高效)

  • 數據挖掘適用于傳統的BI(報表、OLAP等)無法支持的領域。

  • 數據挖掘項目通常需要重復一些毫無技術含量的工作。



如果你閱讀了以上內容覺得可以接受,那么繼續往下看。

學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術尤其是計算機領域的技術發展是寬泛且快速更替的(十年前做網頁設計都能成立公司),一般人沒有這個精力和時間全方位的掌握所有技術細節。但是技術在結合行業之后就能夠獨當一面了,一方面有利于抓住用戶痛點和剛性需求,另一方面能夠累計行業經驗,使用互聯網思維跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。

一、目前國內的數據挖掘人員工作領域大致可分為三類。

  • 1)數據分析師:在擁有行業數據的電商、金融、電信、咨詢等行業里做業務咨詢,商務智能,出分析報告。

  • 2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業里做機器學習算法實現和分析。
  • 3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新算法效率改進及未來應用。



二、說說各工作領域需要掌握的技能。

(1).數據分析師

  • 需要有深厚的數理統計基礎,但是對程序開發能力不做要求。
  • 需要熟練使用主流的數據挖掘(或統計分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
  • 需要對與所在行業有關的一切核心數據有深入的理解,以及一定的數據敏感性培養。
  • 經典圖書推薦:《概率論與數理統計》、《統計學》推薦David Freedman版、《業務建模與數據挖掘》、《數據挖掘導論》、《SAS編程與數據挖掘商業案例》、《Clementine數據挖掘方法及應用 》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。

(2).數據挖掘工程師

  • 需要理解主流機器學習算法的原理和應用。
  • 需要熟悉至少一門編程語言如(Python、C、C++、Java、Delphi等)。
  • 需要理解數據庫原理,能夠熟練操作至少一種數據庫(Mysql、SQL、DB2、Oracle等),能夠明白MapReduce的原理操作以及熟練使用Hadoop系列工具更好。
  • 經典圖書推薦:《數據挖掘概念與技術》、《機器學習實戰》、《人工智能及其應用》、《數據庫系統概論》、《算法導論》、《Web數據挖掘》、《 Python標準庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。

(3).科學研究方向

  • 需要深入學習數據挖掘的理論基礎,包括關聯規則挖掘 (Apriori和FPTree)、分類算法(C4.5、KNN、Logistic Regression、SVM等) 、聚類算法 (Kmeans、Spectral Clustering)。目標可以先吃透數據挖掘10大算法各自的使用情況和優缺點。

  • 相對SAS、SPSS來說R語言更適合科研人員The R Project for Statistical Computing,因為R軟件是完全免費的,而且開放的社區環境提供多種附加工具包支持,更適合進行統計計算分析研究。雖然目前在國內流行度不高,但是強烈推薦。
  • 可以嘗試改進一些主流算法使其更加快速高效,例如實現Hadoop平臺下的SVM云算法調用平臺--web 工程調用hadoop集群。

  • 需要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數據挖掘相關領域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。

  • 可以嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。

  • 可以嘗試為一些開源項目貢獻自己的代碼,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體可以在SourceForge或GitHub.上發現更多好玩的項目)。

  • 經典圖書推薦:《機器學習》 《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。



三、以下是通信行業數據挖掘工程師的工作感受。

真正從數據挖掘項目實踐的角度講,溝通能力對挖掘的興趣愛好是最重要的,有了愛好才可以愿意鉆研,有了不錯的溝通能力,才可以正確理解業務問題,才能正確把業務問題轉化成挖掘問題,才可以在相關不同專業人才之間清楚表達你的意圖和想法,取得他們的理解和支持。所以我認為溝通能力和興趣愛好是個人的數據挖掘的核心競爭力,是很難學到的;而其他的相關專業知識誰都可以學,算不上個人發展的核心競爭力。

說到這里可能很多數據倉庫專家、程序員、統計師等等都要扔磚頭了,對不起,我沒有別的意思,你們的專業對于數據挖掘都很重要,大家本來就是一個整體的,但是作為多帶帶一個個體的人來說,精力有限,時間有限,不可能這些領域都能掌握,在這種情況下,選擇最重要的核心,我想應該是數據挖掘技能和相關業務能力吧(從另外的一個極端的例子,我們可以看, 比如一個迷你型的挖掘項目,一個懂得市場營銷和數據挖掘技能的人應該可以勝任。這其中他雖然不懂數據倉庫,但是簡單的Excel就足以勝任高打6萬個樣本的數據處理;他雖然不懂專業的展示展現技能,但是只要他自己看的懂就行了,這就無需什么展示展現;前面說過,統計技能是應該掌握的,這對一個人的迷你項目很重要;他雖然不懂編程,但是專業挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業務能力的人就可以圓滿完成了,甚至在一個數據源中根據業務需求可以無窮無盡的挖掘不同的項目思路,試問就是這個迷你項目,單純的一個數據倉庫專家、單純的一個程序員、單純的一個展示展現技師、甚至單純的一個挖掘技術專家,都是無法勝任的)。這從另一個方面也說明了為什么溝通能力的重要,這些個完全不同的專業領域,想要有效有機地整合在一起進行數據挖掘項目實踐,你說沒有好的溝通能力行嗎?

數據挖掘能力只能在項目實踐的熔爐中提升、升華,所以跟著項目學挖掘是最有效的捷徑。國外學習挖掘的人都是一開始跟著老板做項目,剛開始不懂不要緊,越不懂越知道應該學什么,才能學得越快越有效果。我不知道國內的數據挖掘學生是怎樣學的,但是從網上的一些論壇看,很多都是紙上談兵,這樣很浪費時間,很沒有效率。

另外現在國內關于數據挖掘的概念都很混亂,很多BI只是局限在報表的展示和簡單的統計分析,卻也號稱是數據挖掘;另一方面,國內真正規?;瘜嵤祿诰虻男袠I是屈指可數(銀行、保險公司、移動通訊),其他行業的應用就只能算是小規模的,比如很多大學都有些相關的挖掘課題、挖掘項目,但都比較分散,而且都是處于摸索階段,但是我相信數據挖掘在中國一定是好的前景,因為這是歷史發展的必然。

講到移動方面的實踐案例,如果你是來自移動的話,你一定知道國內有家叫華院分析的公司(申明,我跟這家公司沒有任何關系,我只是站在數據挖掘者的角度分析過中國大多數的號稱數據挖掘服務公司,覺得華院還不錯,比很多徒有虛名的大公司來得更實際),他們的業務現在已經覆蓋了絕大多數中國省級移動公司的分析挖掘項目,你上網搜索一下應該可以找到一些詳細的資料吧。我對華院分析印象最深的一點就是2002年這個公司白手起家,自己不懂不要緊,一邊自學一邊開始拓展客戶,到現在在中國的移動通訊市場全面開花,的確佩服佩服呀。他們最開始都是用EXCEL處理數據,用肉眼比較選擇比較不同的模型,你可以想象這其中的艱難吧。

至于移動通訊的具體的數據挖掘的應用,那太多了,比如不同話費套餐的制訂、客戶流失模型、不同服務交叉銷售模型、不同客戶對優惠的彈性分析、客戶群體細分模型、不同客戶生命周期模型、渠道選擇模型、惡意欺詐預警模型,太多了,記住,從客戶的需求出發,從實踐中的問題出發,移動中可以發現太多的挖掘項目。最后告訴你一個秘密,當你數據挖掘能力提升到一定程度時,你會發現無論什么行業,其實數據挖掘的應用有大部分是重合的相似的,這樣你會覺得更輕松。

四、成為一名數據科學家需要掌握的技能圖。(原文:Data Science: How do I become a data scientist?)







人一能之,己十之;人十能之,己千之。果能此道矣,雖愚,必明;雖柔,必強。
與君共勉。

以上,祝各位挖掘到自己的快樂和金礦:)

評論0 贊同0
  •  加載中...

相關問題

最新活動

您已邀請0人回答 查看邀請

我的邀請列表

  • 擅長該話題
  • 回答過該話題
  • 我關注的人
向幫助了您的網友說句感謝的話吧!
付費偷看金額在0.1-10元之間
<