{eval=Array;=+count(Array);}

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

問答專欄Q & A COLUMN

如何學習數據分析?

zhigoozhigoo 回答0 收藏1
收藏問題

10條回答

Raaabbit

Raaabbit

回答于2022-06-28 14:34

優秀的數據分析師并不能速成,但是零經驗也有零經驗的捷徑。

市面上有《七周七數據庫》,《七周七編程語言》。今天我們就《七周七學習成為數據分析師》,沒錯,七周。

第一周:Excel學習掌握

如果Excel玩的順溜,可以略過這一周。但很多人并不會vlookup,所以有必要講下。

了解sum,count,sumif,countif,find,if,left/right,時間轉換等。excel的各類函數很多,完全不需要學全。重要的是學會搜索。我學函數是即用即查,將遇到的問題在網上搜索得到所需函數。

重中之重是學會vlookup和數據透視表。這兩個對后續的數據轉換有幫助。

學會vlookup,SQL中的join,Python中的merge能很快掌握。

學會數據透視表,SQL中的group,Python中的groupby也是同理。

這兩個搞定,基本10萬條以內的數據統計沒啥難度,也就速度慢了點。80%的辦公室白領都能秒殺。

網上多找些習題做,Excel是熟能生巧。

養成一個好習慣,不要合并單元格,不要過于花哨。表格按照原始數據、加工數據,圖表的類型管理。

附加學習:

1、了解中文編碼utf-8,ascii的含義和區別

2、了解單元格格式,幫助你了解后期的timestamp,date,string,int,bigint,char,factor等各類格式。

3、如果時間還有剩余,可以看《大數據時代》,培養職業興趣。

第二周:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。

以上就是所謂的可視化。排除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。

另外數據分析師是需要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老板看。如果沒人認同分析結果,那么分析也不會被改進和優化,分析師的價值在哪里?工資也就漲不了對吧。

抽空花一段時間學習可視化的基礎,如《數據之美》

另外你還需要了解BI的概念。知名的BI產品有Tableau,Power BI,還有國產的FineBI等。都有體驗版和免費版能下載,網上找一點數據就能體驗可視化的魅力。比Excel的圖表高級多了。

BI需要了解儀表盤Dashboard的概念,知道維度的聯動和鉆取,知道絕大多數圖表適用的場景和怎么繪制。比如以下FineBI制作的dashboard。

第三周:分析思維的訓練

這周我們輕松一下,學學理論知識。

分析思維首推大名鼎鼎的《金字塔原理》,幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那么就可以學思維導圖,下載一個XMind中文網站,或者在線用百度腦圖。

再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜咨詢公司的面試題,搜Case Book。

題目用新學的思維導圖做,先套那些經典框架,做一遍,然后去看答案對比。因為要鍛煉數據分析能力。所以得結合數據導向的思維。

這里送三條金句:

一個業務沒有指標,則不能增長和分析

好的指標應該是比率或比例

好的分析應該對比或關聯。

舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?

這1000人的數量,和附件其他超市比是多是少?(對比)

這1000人的數量比昨天多還是少?(對比)

1000人有多少產生了實際購買?(轉化比例)

路過超市,超市外的人流是多少?(轉化比例)

這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

第四周:數據庫學習

Excel對十萬條以內的數據處理起來一點不虛,但是資深的數據分析師還是笑摸狗頭,Too Young Too Sample,爺搞得都是百萬數據。要百萬數據,就得上數據庫。

SQL是數據分析師的核心技能之一。有些公司并不給數據庫權限,需要分析師寫郵件提需求,這非常不好。數據分析師經常有各類假設需要驗證,很多時候寫十幾行SQL就能得到的答案,還得麻煩其他部門導出數據。

SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數互聯網公司都是MySQL,我也建議學,性價比最高。

作為數據分析師,只要懂Select相關,增刪改、約束、索引、數據庫范式全部略過。你的公司心得多大才會給你寫權限。

了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等即可。

你看,和Excel的函數都差不多。如果時間充裕,則學習row_number,substr,convert,contact等。和Excel一樣,學會搜索解決問題。不同引擎的函數也會有差異,例如Presto和phpMyAdmin。

期間你不需要考慮優化和寫法丑陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以后你跑個SVM都能去吃飯了。

網上搜索SQL相關的練習題,刷一遍就行。也能自己下載數據庫管理工具,找些數據練習。我用的是Sequel Pro。

第五周:統計知識學習

統計學是數據分析的基礎之一。

統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。

這一周努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎么樣,而是應該這樣分析即可。

Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學會各種檢驗。

《統計數字會撒謊》休閑讀物,有趣的案例可以讓我們避免很多數據陷阱。

深入淺出統計學 (豆瓣)還是經典的HeadFirst系列,適應它一貫的啰嗦吧。

多說一句,老板和非分析師不會有興趣知道背后的統計學原理,通常要的是分析后的是與否,二元答案。不要告訴他們P值什么的,告訴他們活動有效果,或者沒效果。

第六周:業務學習(用戶行為、產品、運營)

這一周需要了解業務。對于數據分析師來說,業務的了解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。

我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低于其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。后來在訪談中發覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。

這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。

對于業務市場的了解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一周了解行業的各指標。

《增長黑客》

數據驅動業務的典型,里面包含產品運營最經典的AAARR框架,部分非數據的營銷案例,

《網站分析實戰》

如果應聘的公司涉及Web產品,可以了解流量的概念。書中案例以Google Analytics為主。其實現在是APP+Web的復合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。

《精益數據分析》

互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。

還有一個小建議,現在有不少第三方的數據應用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下應用Demo,有好處的。

除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。

第七周:Python/R學習

終于到第七周,也是最痛苦的一周。這時應該學習編程技巧。是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。

這里有兩條支線,學習R語言或Python。速成只要學習一條,以后再補上另外一門。

R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經追平R。

如果學習R,建議看《R語言實戰》,照著書本打一遍代碼,一星期綽綽有余。另外還有一本《統計學》,偏知識理論,可以復習前面的統計學知識。

R學習和熟悉各種包。知道描述性統計的函數。掌握DataFrame。如果時間有余。可以再去學習ggplot2。

Python擁有很多分支,我們專注數據分析這塊,入門可以學習《深入淺出Python》。

需要學會條件判斷,字典,切片,循環,迭代,自定義函數等。知道數據領域最經典的包Pandas+Numpy。

在速成后的很長一段時間,我們都要做調包俠。

這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是數據分析的利器。

Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變量的問題,是個大坑(R的中文編碼也是天坑)。

到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。有機會,我會專門寫文章講解每一周的具體知識,并且用爬蟲爬一些數據做練習和案例。

評論0 贊同0
  •  加載中...
meislzhua

meislzhua

回答于2022-06-28 14:34

謝邀

現在發達城市北上廣,已經開始用大數據,運做基金了。而且門檻很高,必須金融和計算機的本科以上人員,研究生擇優錄取。

可見大數據,發展的力度。很多人不知道大數據怎么交易股票,這這里簡單說下,現在好多券商軟件支持,大數據自動化交易,也就是說,當你編寫好自己的預期策略后,由程序根據你的策略實行,自動化交易。現在名聲僅次于巴菲特的詹姆斯.西蒙斯,就是大數據量化交易的先驅,他名下的大獎章基金,就是根據大數據量化交易運行。

大數據量化交易,可以實現。一天成百上千次此交易,只要資金允許。這也是發達發達城市為什么著重研究的對象。還有大數據是未來的趨勢。電腦在對市場熱度的分析,要強于人工識別。但是論單個交易,人工肯定強于電腦,但是從現在的基金規模來看。電腦交易是主要趨勢。不管多厲害的基金經理,精力都是有限的。

目前的大數據都是借助python為主要語言編寫的,感興趣的可以看看相關方面的學習。券商對自動化交易的資金,一般是5w門檻。所以,隨著市場的發展。大數據量化交易,會慢慢普及。

以上就是本人對大數據的看法,喜歡的可以加個關注,點個贊。

評論0 贊同0
  •  加載中...
sshe

sshe

回答于2022-06-28 14:34

一、數據分析前世今生

近年來,越來越多的企業開始出現數據分析師這個崗位,無非可以分為技術類和非技術類,技術類要運用算法搭建模型,非技術類對模型結果進行可視化展現、數據報告撰寫等。

二、數據分析的未來

不要把自己單純地定義為一名數據分析師,企業不乏做表的(初級數據分析師)、搞模型的(高級數據分析師),財務做報表更厲害,程序員比你更容易上手。數據分析一定是一項必備技能,就和PPT、Excel一樣,它是來輔助工作的,而不是工作的全部。

三、學習路線

技術:

  • Excel

  • SQL

  • Python/Spss

  • 可視化

理論:

  • 數據分析思維和方法

  • 統計學

  • 對業務的理解

四、推薦書籍/網站

以下推薦的書籍和網站絕無任何廣告嫌疑,只是自己覺得還不錯分享給大家。

1、Excel學習

沒有什么推薦的書籍和網站,網上有很多大神的教程,如果時間充裕,就系統的學習一下,如果時間緊張,就用臨陣用度娘也是可以解決問題的,當然,學什么都最好能夠系統地學習。要記住一點,我們是用Excel進行數據分析的,所以應當從數據獲取、數據處理、數據分析和輸出幾個方面來學習Excel。

之前的文章也有寫過這方面的:

用Excel做直方圖(1):隨機數發生器

用Excel做直方圖(2):頻率分布直方圖

用Excel做控制圖

2、SQL學習

建議去W3Sschool自己學習,非常詳細,附網址,https://www.w3cschool.cn/sql/。如果想要練習的話,可以從SQLZoo去練習,在線版的SQL練習教程,https://sqlzoo.net/wiki/SQL_Tutorial。書的話《SQL必知必會》還不錯,很精簡,基本可以滿足日常表的查詢和維護了,想要不僅滿足于查詢的話,還可以參考《深入淺出MySQL》,數據庫開發、優化與管理,600多頁。

3、Python學習

對于非程序員出身的新手小白來說入門很簡單,精通還是不容易的。如果你僅僅是停留在用Python進行數據處理和分析的階段上,建議《利用Python進行數據分析》這本書非常不錯,不要去學python開發、python編程之類的書,Python可以用來做很多事情,但對于數據分析師而言,我們可能不需要用Python來開發什么游戲、網站等,我們只需要進行數據控制、處理、整理和分析即可,系統地學一下python中的數據科學庫是非常有必要的,如:Numpy、pandas等。

4、可視化

有很多可視化的工具,用Excel可以實現可視化,powerBI、Tableau、Python也可以可視化。工具的選擇是一方面,另一方面是對于圖表的理解,什么場合適用什么樣的圖表。

用Excel做排列圖

5、數據分析的思維和方法

參考書籍《深入淺出數據分析》,把道理方法講的很透徹的一本書,對于深入理解底層邏輯很友好。《誰說菜鳥不會數據分析》系列,主要是對于方法和工具使用的學習。可參考之前的文章 數據分析方法論 來大概了解。

6、統計學

《深入淺出統計學》非常棒的一本書,對于統計學的基本概念的解釋非常直白到位,讓小白能夠清楚地理解這個公式為什么是這樣子的,而不是直接擺公式。底層邏輯明白后,可以參考李航的《統計學習方法》,這是大學課本,有時間的話還是應該好好研究一下系統邏輯的。

7、對業務的理解

推薦《數據挖掘與數據化運營實戰》,這本書對業務與數據分析怎么結合有很詳細的說明和實例。

評論0 贊同0
  •  加載中...
BLUE

BLUE

回答于2022-06-28 14:34

想要做好數據分析,兩個方面的內容不可缺少:一是有精準的數據支撐,這是做研究的基本,這一點需要有好的數據庫;二是要有清晰流暢的邏輯思維,才能形成完整的、可以轉化效能的報告,這一點可以通過大量觀看優質的報告練成。

對于個人來說,關注行業動態是十分有必要的,多看數據,找到1他們其中的關聯,慢慢就能形成數據分析的思維了。

首先你要學會列框架。在看了大量的報告之后,形成自己的思維邏輯,從背景、現狀、展望的大邏輯到一些角度的自我選擇,就能形成具有自己獨特性的分析報告了。

然后就是動筆,筆桿子是可以練出來的,光動腦筋可不行,很容易忘記的,所以要動筆寫下來,也許最初你做的數據分析還是一團亂麻,不管是內容還是形式都不好看,但只要堅持做下去就可熟能生巧。

小易作為數據分析二十年的老手,希望給您提供一點幫助……

1.行業研究報告以去看看易觀分析-數據驅動精益成長的易觀博閱

易觀分析研究覆蓋上百個領域,持續積累十余年的5000份行業深度分析,可以在里面查到最新行業研究,對市場與企業進行全方位的解讀。


2.行業數據可以了解一下易觀千帆,目前市面上很多研報,媒體數據,招股書數據都有引用易觀千帆數據。

3.行業與產品數據可以去關注下易觀千帆 - 移動互聯網產品競爭分析

易觀千帆基于數字用戶在移動終端 的海量數據,進行分析挖掘的大數據產品。建立客觀、權威的移動應用評級,分析用戶行為特征、建立數字消費者用戶畫像, 為客戶提供內部運營決策和外部競爭分析的一站式服務。

洞察行業趨勢:覆蓋全網熱門APP,了解自身在市場中所 處的位置,發現市場中的競爭對手

競品對標分析:覆蓋全網315行業,快速了解細分品類競手的發展 情況,制定市場策略


用戶偏好分析:分析用戶基礎屬性及興趣偏好,推動用戶增長,提升ARPU


挖掘投資機會:尋找行業賽道黑馬,挖掘投前投后的價值分析

評論0 贊同0
  •  加載中...
williamwen1986

williamwen1986

回答于2022-06-28 14:34

沒人邀我,我就不謝邀了~

就目前我們這個互聯網大數據時代來說,不光人人都是產品經理,連數據分析每個人每天都會碰到。你手機里的app,你上網的痕跡,你每天都在和各種各樣的數據打交道,都在歸置自己身上的數據標簽和數據信息。

這是一個大數據的時代,也是充滿機遇的時代。各個行業都在進行數字化轉型,想依靠數據來競爭,大家都相信得數據者可以得到“天下”,像目前世界500強的企業當中 ,百分之90的公司都建立了數據分析的部門,數據分析這個職業也變得熱門起來。在知乎上一搜數據分析,還蠻多問題是想轉行數據分析行業或者是想從事數據行業,但是不知道怎么入手的小白們提問的,就和題主一樣,知道數據分析的大概意思,但是不知道該掌握哪些具體知識。

那么我作為一個數據可視化從業者哈~也在工作中碰到不少數據分析的事情,我就結合我自身的經驗,給題主一些建議

  • 什么是數據分析?
  • 為什么要做數據分析?
  • 處理數據分析時要了解什么?
  • 數據分析師應該具備什么特質?
  • 數據分析師該掌握什么基礎技能?

什么是數據分析?

數據分析從字面意思來看,即“數據+分析”。

數據是基礎,分析是結果。數據存在是既定的事實,但是面對無序的數據,人類是無法發現其中蘊含的問題。所以需要通過數據分析師來將數據進行全方位的解析,才能把無序的數據變為能夠使用的數據,為人類提供有貢獻信息,才能體現出數據的價值所在。

為什么要做數據分析?

數據分析的作用和價值我們可以概括為以下四個方面:

  1. 幫助主體來識別機會、規避責任風險
  2. 幫助主體診斷現存的問題,亡羊補牢
  3. 幫助主體評估使用效果,改進營銷措施
  4. 幫助主體來提高效率,加強企業管理

處理數據分析時要了解什么?

大數據對所有的行業部門都至關重要。但是很顯然,不同的行業數據分析師面對行業數據所需要提取的數據信息是不同的,所以你需要知道自己的目標行業對數據分析的需求是什么,比如以下幾個行業 :

教育大數據

  • 大數據有助于重新組織課程資料。
  • 使用數據結構幫助進行職業預測。
  • 定制學習程序。
  • 通過算法在分級系統中使用。

保險業

  • 數據結構有助于收集有關個人和公司的信息
  • 算法有助于獲得客戶見解
  • 檢測欺詐
  • 當客戶提出索賠時幫助進行威脅映射

政府產業

  • 政府從各個部門收集數據,以使用數據結構做出重要決策。
  • 必須在國家和全球范圍內制定決策和計劃。
  • 必須通過數據結構和算法來維護和分析數據庫和記錄。
  • 它可以幫助他們實施計劃,服務,就業和政策。

銀行業

  • 數據結構和算法有助于防止濫用信用卡和借記卡
  • 防止洗錢
  • 減輕風險和業務清晰是可能的。

數據分析師應該具備什么特質?

了解了你分析數據時候應該注重什么,接下來就要明白自己作為一個數據分析師應該具備什么樣的特質,我也為題主總結了幾點:

  1. 強大的分析能力
  2. 良好的溝通及人際交往能力,才能建立良好的工作關系
  3. 要具備在技術/非技術人員面前解釋事物的能力
  4. 有能力自主工作,也可在團隊工作
  5. 具備時間管理技能
  6. 項目管理技能,與利益相關者進行規劃、組織和協調項目的方方面面
  7. 有能力處理壓力和解決問題的能力
  8. 積極自我激勵,快速學習和創新的人
  9. 掌握一些列數據分析工具「重點掌握」

數據分析師該掌握什么基礎技能?

入門級的數據分析師,肯定不要好高騖遠,先把Excel玩轉再說,不要以為Excel就是個簡單的表格工具,它的強大你想象不到,我相信知乎上肯定很多有Excel的專業教程,我這里也不展開詳細的講解。

當然想成為一個成功的數據分析師單單掌握Excel是肯定不夠的,因為這只是一個數據分析的呈現,真正的數據分析師必須要通過數據現象的查看來完成對產品的營銷策略、運營策略的優化 ,不僅是對業務需要有一定的了解,還需要掌握各種數據分析的技能,從能力上來增長自己。

我根據前人的經驗和網絡上大家對數據分析技能的共識總結出以下幾點:

一個合格的、高級的數據分析師應該掌握的技能:

  1. 統計分析:大數定律、抽樣推測規律、秩和檢驗、回歸、預測;
  2. 可視化輔助工具:excel、BI工具、python
  3. 大數據處理框架:Hadoop、storm、spark
  4. 數據庫:SQL、MySql、DB
  5. 數據倉庫:SSIS、SSAS
  6. 數據挖掘工具:Matlab、R語言、python
  7. 人工智能:機器學習
  8. 挖掘算法:數據結構、一致性
  9. 編程語言:Java、python
  10. 數據可視化能力:EasyV、DataV、raydata「這個很重要、可以說是一大熱門趨勢」

以上就是我對題主疑惑 的解答,當然其實想要學習一個新的東西方法論雖然很重要,但是最重要的還是要保持永遠學習的心態,因為世界萬物不斷在變,特別是互聯網行業,數據這種東西太飄忽不定了,不時刻更新自己的知識庫,很容易在前進的路上掉隊,被后浪拍打在沙灘上。今天你是小白,那么一段時間過后,你必須讓自己成為具有一定優勢的人,才不會被時代淘汰哦~

最后想要了解數據可視化的更多知識,歡迎關注我呀~~

評論0 贊同0
  •  加載中...
張率功

張率功

回答于2022-06-28 14:34

數據分析師是一個綜合的崗位,除了熟悉業務,還需要掌握多項技能,例如Excel、SQL、統計學及SPSS,R/Python,海量數據的情況下需要在大數據平臺下分析,所以還需要掌握Hadoop相關的技術,如Hive、HBase等。

由于涉及的技術較多,一下都學完不現實,所以,學習數據分析建議分成三個階段進行:

1、商業數據分析

2、涉及算法的數據挖掘

3、大數據平臺下的分析

階段一:商業數據分析

對于大部分公司來說,數據量不是很龐大,數據分析通過Excel,SPSS等工具就可以搞定,此時需要掌握的技能有Excel、MySQL、統計學及SPSS。

學完這些技能后,可以去很多公司做一名商業數據分析師,支撐市場部、運營部等的數據分析工作。

1、Excel

Excel這部分需要學習的內容有3塊:Excel公式、數據透視表及Excel數據圖表。

說明:關于每一塊需要掌握哪些技能,可以看我的另外一個回答:零基礎如何入門數據分析?

關于Excel的書籍、教程有很多,找幾本經典來學習一下,重要的是練習,看完教程后,一定要自己動手做一遍,才有可能掌握。

推薦書籍:

  • 《誰說菜鳥不會數據分析》系列

  • 《Excel圖表之道:如何制作專業有效的商務圖表》

  • 《別怕,Excel VBA其實很簡單》


2、MySQL

作為數據分析師,需要跟數據打交道,所以懂點SQL也是必要的。

關于SQL的書籍、免費資料也有很多,這里推薦2本,重點仍然是多動手練習。

推薦書籍:

  • 入門書籍:《MySQL必知必會》,人郵出版社。

  • 進階書籍:《SQL進階教程》,[日]MICK。


3、統計學

統計學是必須的,不懂統計學根本算不上數據分析師,具體內容有:

1、統計學:統計學基礎、參數估計、假設檢驗、方差分析、線性回歸、時間序列。

2、多元統計分析:聚類分析、主成分分析及因子分析。

從上面可以看到,統計學學習可以分成兩個階段進行,統計學和多元統計分析,重點是多動手做題、思考。

推薦書籍:

  • 第一階段,推薦書籍,賈俊平的《統計學》,人大出版社;

  • 第二階段,推薦書籍,何曉群的《多元統計學分析》,人大出版社。

PS:數學零基礎的童鞋,可以先看下《Head First 統計學》(又名《深入淺出統計學》)


4、SPSS

因為統計學很有些分析方法通過Excel就可以搞定;有些不行,必須通過其他工具才能搞定,例如多元線性回歸、聚類分析、主成分分析及因子分析,都需要用到SPSS。

在掌握了統計學的基礎上,在學習SPSS是很容易的,因為SPSS只是一個工具而已。

推薦書籍:

  • 《統計分析與SPSS的應用》,薛微,人大出版社。

  • 《PASW/SPSS Statistics中文版統計分析教程》,電子工業出版社。

附:數據分析必備SPSS主要知識點。

階段二:涉及算法的數據挖掘

有些數據分析工作,需要通過統計算法及機器學習算法來進行,所以還需要掌握Python或者R。

掌握了R數據分析或者Python數據分析技能后,可以去一些公司做基于統計算法或者機器學習算法的數據分析及挖掘工作。

1、Python

Python數據分析主要包括Python語法基礎、常用數據分析擴展包Numpy、Pandas、Matplotlib等、Python數據探索及預處理、Python機器學習等。

限于篇幅,具體需要掌握哪些技能這里就不詳細列出了,可以去看我的另外一個回答:怎么學習python數據分析?

推薦書籍:

  • 《Python編程從入門到實踐,[美]Eric Matthes》

  • 《利用Python進行數據分析,Wes McKinney,機械工業出版社》

  • 《Python機器學習基礎教程》,[德]Andreas C. Müller [美]Sarah Guido


2、R

R數據分析包括R語言基礎、R數據可視化、R數據預處理、R統計分析及R機器學習。

附:數據分析必備R語言知識點。

推薦書籍:

  • 《R語言初學者指南》,[英]Alian

    F.Zuur

    等,西安交通大學出版社

  • 《R語言實戰(第2版)》,Robert

    I.Kabacoff

    ,人民郵電出版社


階段三:大數據平臺下的分析

在一些大公司,海量數據的情況下,數據都是運行在大數據平臺上(Hadoop),還需要懂MapReduce、Hive、HBase數據倉庫等技術。當然這些可以在工作學習、積累。

回答完畢!

評論0 贊同0
  •  加載中...
newsning

newsning

回答于2022-06-28 14:34

數據分析是一項龐雜的任務,我之前在“東軟平臺產品”官網看過DataViz這個數據可視化分析工具,感覺還挺不錯的

評論0 贊同0
  •  加載中...
mgckid

mgckid

回答于2022-06-28 14:34

一般問出這個問題大多是對數據分析沒有太深入的了解,甚至可以說零基礎,那我們就針對零基礎來談一談如何學習數據分析。

l零基礎小白的定義是這樣的:

  • Excel: 基本功能會用,對數據有點概念, 比如:
    • 能對某列進行排序、篩選
    • 能對某列求和、求平均值
    • 知道透視表,但不熟,比如:
      • 會選中表格內容生成透視表
      • 不懂行、列、值如何拖拽滿足統計要求
  • SQLShellPython: 完全沒接觸過
  • 學習目標: 能看的懂SQL,并能簡單使用SQL統計數據

對于小白來說,主要需要學習這些內容:

  • 第一部分: SQL的應用場景
    • 考核目標一: 什么是SQL?
    • 考核目標二: SQL能干哪些事兒?
    • 考核目標三: 互聯網最常用數據庫,說兩種。
  • 第二部分: SQL的基礎語法
    • 考核目標一: 用SQL來實現Excel的基礎功能: 排序、篩選、去重
    • 考核目標二: 用SQL來實現Excel的匯聚功能: 求和、求平均、求最大/最小值
    • 考核目標三: 給出一個復雜SQL腳本模板,并能簡單修改完成統計

獲取更多數據分析相關資訊歡迎關注我們的公眾號:聚數云海。免費獲取數據分析師大廠真題。

評論0 贊同0
  •  加載中...
shevy

shevy

回答于2022-06-28 14:34

我的職位不是數據分析師,是數據運營。很多工作和數據分析重合,屬于既做運營、又做數據,可能還參雜其他角色。

最開始我是從運營接觸上手數據,沒有編程的基礎,也沒有統計的知識。大學的幾門課我都是靠同學才過的,掩面哭。可能我零經驗的經歷對大部分有志于從事數據分析的朋友都是一個參考。

剛開始工作我可是連vlookup都不會,也沒人教我,excel只會很基礎的操作。那時要關聯多張報表,我仗著手速快,一個個對照復制黏貼的…要是數量一多肯定哭。后來我想這可不是辦法啊。于是借助萬能的百度:

“excel怎么匹配多張表的數據。”

于是看到vlookup函數。每次用都要先看一遍網上的樣例,不然會有各種問題。用了幾次才會用。

那時候運營方面的數據需求還好,很多都是自己間歇時間琢磨。比如什么樣的用戶愿意用我們APP。于是我希望研發能有各種報表的下載,然后我用excel關聯,做一些簡單的分析。

期間當然犯了很多新手犯的錯誤,比如相關性不代表因果性,比如極值的影響,比如樣本數量不滿足置信度。

少年不知天高地厚,不過我依舊樂在其中。做數據分析要有勃勃的好奇心。

記得是15年初,老板給了我一個任務,收集各地的醫院數據。我一看網上醫院有幾萬家,我又要快哭了,我手速再快也復制黏貼不了啊。于是求助了解到爬蟲這么一個磨人的好東西。

那時水平不夠用Python+Scrapy,找來了一款火車頭的爬蟲工具。然后按著教程走,順便了解了Html+CSS的網頁結構。

加了兩天班,終于抓下來數據。

再次哭了,不是感動的。

這都什么亂七八糟的數據。不僅有錯位,亂碼,空格,還有重名。什么上海市第一醫院,上海第一醫院,上海市第一人民醫院,上海市第一醫院。你同一家醫院給我網上放四個!!更別提分院、地址不匹配等等。

后來才知道這步驟叫數據清洗。繼續用excel函數整理。我一直信奉的準則是:如果能用簡單的,可復用的方法,就絕對不重復操作。我堅信永遠有省時省力的方案。這期間Excel水平提高的飛快。另外也養成了隨時保存的好習慣,微笑臉。

雖然爬蟲從學習到成功還是花了不少時間。但是和從網上拷貝下來比,那效率是高多了。

大概同一時期,我把網站也學習了。

我們產品是APP+Web框架,很多功能和活動都是用Web頁實現。當時用的是百度統計。系統的學習了漏斗轉化,訪問路徑,跳出率退出率等。

那時針對各類活動的分析都能迅速落地,比如活動期間的流量,用戶的轉化率等,都是能很快獲得反饋的分析,是能對運營產生直接了解的。后續的活動都納入了分析,也將百度統計的相關應用推廣到運營部門。

隨著分析的深入,自己對分析也有更高的數據要求。比如什么樣的用戶更容易參加活動?用戶流失的原因是什么?

不論是下載的報表,還是網頁統計,在當時都很難做到。很長一段時間只能用粗略的描述性統計,而不能定位到具體的人。

數據分析很多技能都能后天磨練,但我覺得一個好的數據分析師一定會有好奇心,會去提問,會想問題,也能去解決問題。不是為了分析而分析。

隨著公司業務線的拓展、用戶數量的提升。我用Excel做關聯越來越吃力,效率也幾何程度的降低。15年8月的時候,我再一次向研發老大提需求時,他對我說:要不給你開個數據庫權限,你自己查吧。

我:我不會SQL啊。

研發:不要緊,很容易學的。

我:好啊好啊。

我內心是很爽的,老子再也不用求你們了!

一個月后,所有部門的數據需求都不走研發,而是堆疊到我這。顯然讓我用SQL是有天大的預謀。可我還是很感謝接觸SQL,讓我能接觸到的數據呈幾何上升。

那時期還有一個任務挑戰,我需要搭建用戶運營的數據體系,包括留存、活躍、回流、分層等指標。我網上一邊查運營指標的應用和解釋,一邊查SQL的實現。

這是我第一次開始接觸、了解和建立以業務為核心的數據體系。

當時,我們運營,好長一段時間的推送、短信、營銷都是全量。一故腦兒的都推給用戶,沒有細分。在指標建立后,我們部門開始嘗試用自己數據體系去運營。

舉兩個最簡單的例子:比如你最近打開過我們APP,那么我們就不會給你推最新的活動短信,因為我們默認你能在APP中看到。

再比如,用戶用過APP很長一段時間,我們冠他叫忠誠用戶,后來突然他連續幾周不用,那么我們會找出這個用戶,電話詢問為什么不用,嘗試喚回他。

也是從那時開始,我有意的去衡量各類運營效果,比如活動的人均成本,短信的人均效果成本,用戶價值周期等。并且不斷優化。

利用數據建立指標,對業務最直觀的感受就是有據可依,分析和運營能夠有針對性。

數據多起來后,每日維護數據報表成了最花時間的事。雖然當時我們用了Presto+Airpal的數據平臺,但不管各類業務線,還是APP基礎數據,我和我部門花費在整理上的時間越來越多,分析越來越少,更不要說落地和執行。

之后則順理成章地引入BI,在此之前我都不知道BI是個什么鬼。


(圖例,當時了解后,我就這么被BI給折服了)


BI的學習曲線沒那么陡峭,為了實現運營的數據報表自動化(依舊是為了省時省力),請求研發(一頓飯)多帶帶開了一臺服務器進行私有化部署,連接數據庫,花了大約一個月的時間將所有的報表需求都遷移到服務器上。

爽。

很多工作都簡化或者剔除:能夠監控任何的推送和短信效果,市場銷售的分析能夠定位到人,隨時掌握業務線的波動。

有數據才能分析,能有充裕的人手安排監控和觀察數據,至此,運營的數據體系有了基礎。

在15下半年,我則向產品提出(沒請吃飯)需求希望布置APP和Web埋點,通過用戶的路徑了解用戶,也彌補百度統計的缺點。埋點數據亦全不亦少,亦早不亦遲,我們埋點比較遲,如果早一點,可能有更多時間進行優化工作。

當時經過考慮,埋點數據會比較多,要用到Hadoop,雖然從后續看,Hadoop并不是必需的選擇。但是也提前讓我了解到大數據(當然數據本身不大,具體是相關領域技術)。

埋點數據使用Hive建立離線的腳本清洗、分區、加工后導入到MySQL。蠻遺憾的是業務用不太到Hadoop,只是數據管理而已,所以我了解不怎么深。

到此底層的數據都已經完善。后續都是上層的加工。

今年初,我開始學習數據挖掘,往數據分析更高層進階,先入手的是R。

自身沒有啥編程基礎,基本上是工作后和研發的耳濡目染,所以學起來較為吃力。主要是敲書上的語句學習。整本書敲下來,基本了解拿到一堆數據知道怎么清洗,怎么使用描述性統計,怎么進行作圖。

基礎學的差不多,開始啃算法,我是應用型為主,所以絕大部分的算法都不學習數學推導。當然決策樹,K聚類這種簡單的都掌握。

大概所有數據挖掘的初學者,都會用到Iris Data的數據,然后就是泰坦尼克的幸存者分析吧。是的話點個贊,哈哈。

我不是啥數據挖掘工程師,我喜歡稱自己調包俠。

后來還去參加了數據挖掘的比賽,是一個信用欺詐模型,典型的數據不平衡問題。數據完全脫敏,從字段上無法得知業務意義。

這和平時直接拿干凈的數據源做模型完全兩回事,模型的recall一直不理想,最終也沒有什么成績,最大的幫助就是知道自己有多井底之蛙。

后來重視特征選擇、特征加工這塊。好的數據和特征,能夠很大程度決定模型的優劣。我之前練習時,因為我本身是運營,挑選的特征都是經過擇優和強相關的,實際特征工程是我非常大的短板。

關于數據挖掘我還在不斷學習的過程中,以后有機會再多補充吧。

Python的學習,說來還是歸因于研發大哥們(這次不請飯了)。因為我們業務線的數據比較多,產品改需求更多,很多表的結構不堪入目,常用的SQL必需各種嵌套,應用起來比較麻煩。

我不喜歡重復無意義的工作,我希望有清洗整理過的數據,于是提需求。

結果當然是需求延期。

這個讓我想起了一段經典的對話:

產品&運營:這個很簡單的

研發:U Can U Up

仔細思考了一下,數據清洗我肯定會不斷改需求(我就是對自己如此不自信),請研發大哥們的咖啡和晚飯會比較多,那還不如自己動手,反正數據分析將來也得用Python,撩袖管UP。

下載Python,安裝GitLab,開啟CI權限,然后進行數據倉庫的規劃。我自然不知道數據倉庫應該是啥樣子。反正目標是我們運營數據怎么用怎么爽…

繼續拿起書本,用Pandas編寫ETL和數據倉庫的相關代碼。期間對數據表進行了無數次的調整,性能優化查詢優化,怎么樣能適應業務的拓展,如何防止數據膨脹。

Truncate無數次,換其他公司早被砍了吧。

最終總算滿意,并且將常用的幾個清洗過程函數化,以后可以快速復用建表。比如七天內某業務數據,三十日內某業務數據。

數據挖掘的常用特征庫一并建立,會用離線算法進行一些業務響應模型的預測,準確率達到75%以上。雖然和大牛們比不咋滴,但是作為運營有算法模型,感覺還是蠻爽的。

下一步,我們團隊開始用數據倉庫中的數據,抽象成用戶畫像。

我網上看過很多用戶畫像的文章,比如用戶的年齡、性別、愛好、財務狀況等畫像,可我們不是電商行業,用戶的興趣對我們的業務沒有實際幫助。我則只根據自身對業務的理解制定畫像標準。

例如以經典的RFM框架,制作標簽:一個月沒有產生訂單、近期產生的訂單頻率較低等。幫助銷售和運營判定用戶需要激勵還是發展。

說白了,我不了解其他企業的用戶畫像,可能水平再高點,會用上主成分分析或者聚類等。但我依舊堅持以自身運營的角度去分析和提煉,只要對業務有幫助就是好的用戶畫像。幸好畫像的代碼都是自己搞定,后期要改需求也是自己改,不用請吃飯了。

自己對數據分析的了解和深入,都是工作中一步一個腳印走下去的。有模仿前人的經驗,也有團隊的摸索。不敢說自己有多少心得,從去年用MySQL到現在也才一年多時間,還有很多有意思的數據想嘗試和學習:

網站數據分析和APP數據分析的異同在哪里;

我了解SEO的知識,但是流量沒有實戰檢驗,很想用Python爬蟲+AB測試去獲得權重;

營銷很希望有大金額的預算操作,通過優化不斷降低CPC;

Spark已經是趨勢,可還沒有接觸過;

數據學的越多,越覺得不算入門,更別提還有運營的本職工作。

另外,我還知道自己的不足和局限,比如不知道大廠的數據產品是什么樣的,比如有沒有更棒的數據運營案例,都很愿意和大家一起交流。

評論0 贊同0
  •  加載中...
Lionad-Morotar

Lionad-Morotar

回答于2022-06-28 14:34

很高興回答您的問題。

作為一個數據分析師,結合工作我談談我自己的看法。

首先,做數據分析首先得學習數據庫,比較數據是最基本的資源。

其次,是數據分析相關的理論,為建模或者進行進一步分析打基礎。代數和統計知識要求較高。

再次,學習各種軟件。Excel是最最最基本的工具,各種函數、插件的學習;SPSS、R至少掌握一種吧,個人認為SPSS更容易上手,當然每個行業有自己相對認可的工具;Python建議掌握,很強大的工具,清洗數據、建模、可視化、爬蟲等等都可以完成。最后建議掌握一個可視化軟件比如Tableau。當然分析完需要寫報告,不管文字功底、概括能力、審美能力,都是有要求的。

最后,模型學習,這個沒的說,要知道每個模型是用來干什么,比如決策樹做畫像是經常會用到的。

特別想說一點,數據分析不能只看數據,還要相對了解業務,脫離業務的數據分析什么都不是。

希望對您有幫助。


評論0 贊同0
  •  加載中...

相關問題

最新活動

您已邀請0人回答 查看邀請

我的邀請列表

  • 擅長該話題
  • 回答過該話題
  • 我關注的人
向幫助了您的網友說句感謝的話吧!
付費偷看金額在0.1-10元之間
<