職場小白如何學習數據分析？

fuchenxuan 2022-06-28 15:50 回答0 收藏1

收藏問題

5條回答

wwolf

回答于2022-06-28 15:50

先確認下自己是否對此感興趣，正感興趣就考慮學習，不論是自學還是參加學習，都務必要有堅定的信念，當然學習數據分析是需要一定的數學、統計基礎，同時需要掌握一點數據分析的工具軟件，若有人帶你學習或指導你，將會事半功倍，我知道比較牛的數據分析專家是趙強，舒立克商學院數據分析教授，有興趣可以了解下他，

評論0 贊同0

加載中...

codecraft

回答于2022-06-28 15:50

完整的數據分析流程：

? 業務建模。

? 經驗分析。

? 數據準備。

? 數據處理。

? 數據分析與展現。

? 專業報告。

? 持續驗證與跟蹤。

1、數據采集

了解數據采集的意義在于真正了解數據的原始面貌，包括數據產生的時間、條件、格式、內容、長度、限制條件等。

2、數據存儲

在數據存儲階段，數據分析師需要了解數據存儲內部的工作機制和流程，最核心的因素是在原始數據基礎上經過哪些加工處理，最后得到了怎樣的數據。

3、數據提取

在數據提取階段，數據分析師首先需要具備數據提取能力。其次是理解業務需求的能力。

4、數據挖掘

在數據挖掘階段，數據分析師要掌握數據挖掘相關能力。一是數據挖掘、統計學、數學基本原理和常識；二是熟練使用一門數據挖掘工具，Clementine、SAS或R都是可選項，如果是程序出身也可以選擇編程實現；三是需要了解常用的數據挖掘算法以及每種算法的應用場景和優劣差異點......

加米谷大數據開發培訓9月0基礎班，預報名中...

相關：

數據分析師的完整工作流程與知識結構體系

https://www.toutiao.com/i6584961126356746760/

評論0 贊同0

加載中...

lavor

回答于2022-06-28 15:50

想要深入學習數據分析，第一步是要進行Python實戰，然后需要對業務進行深入的理解，建立指標體系和思路，因為脫離了業務的數據分析基本上就是瞎胡鬧。

這里我就不談業務了，先演示一下如何利用Python做一次真正的、完整的數據分析實操。

————————Python實操正文————————

比如說，我想要研究亞馬遜上Top100的細分品類——女式內衣的銷售情況。（還有點不好意思）

分析分為三步：數據采集、數據清理、可視化分析

一、如何爬取內衣數據

Python爬數據很簡單，我個人總結大致就 3點：請求數據、進行數據處理、寫數據。

請求數據

會有幾種可能：

很簡單的html頁面，就直接requests就可以請求成功；
js渲染的頁面，這種頁面超多，requests請求一堆js數據；
需要登錄才能獲取，至今登錄我都是用的cookie 請求登錄，但應該有更好的辦法；
json數據；

數據處理

會有幾種可能：

請求的數據是簡單的html結構頁面——直接BS4解析就好了
請求的數據是json——導入json模塊進行解析
請求的數據是簡單的js渲染的html頁面

遇到這種頁面通過抓包或者簡單的在網站上審查請求，然后找的你想要的那部分數據，如果是js渲染的html，其實就是js拼寫的html，只要把其他無用的數據匹配掉用正則找到剩下想要的html文本就好了。然后BS4解析。

寫數據

open方法進行文件打開里面的參數進行文件格式設置，讀寫文件、編碼格式操作

文件格式我用過的就是txt、csv 、xml 大部分文本格式都支持的。

a--是創建文件每次寫都是重新創建w--是追加a--是讀數據encoding="utf-8"這句話不加encoding= 在windows系統下會報編碼錯誤，linux不會。

然后就是數據量太大，寫入到數據庫數據庫就用sqlite，記得引入模塊 import sqlite3，就是創建數據表。

好了，不啰嗦，開始爬數據。

1、爬取商品排名和詳情頁鏈接

需要爬取的具體字段：排名（Rank），商品名（item_name），商品詳情頁鏈接（item_link）、商品圖片鏈接（img_src）。

2、在商品詳情頁爬取更多商品信息

店家名、店家鏈接、商品名、價格

星級、評論標簽

核心：

構建函數來獲取單個商品的詳細信息；
利用for循環，遍歷商品詳情頁鏈接列表，來獲取每個商品的詳細信息

3、爬取評論

評論內容，星級

核心：

從上一步的csv文件中，讀取Rank , item_name , reviews , reviews_link字段
構建函數讀取每個商品的所有評論
利用for循環，獲取所有商品的所有評論
存儲到數據庫和csv文件中

4、爬取size和color數據

和第三步基本一樣，代碼基本一樣，主要在于要確認每頁評論的size&color個數。

二、數據清洗和預處理

1、讀取、清洗數據

從csv文件讀取100個商品的數據，篩選出所需要的字段，進行數據清洗。

這里注意，部分讀取的數據，看似是數值，實際是字符，因此需要進行類型轉換（如price拆分后，還需要轉為float型）

需要參與數值計算的NaN，使用平均值進行替換。

2、以商家維度處理數據

獲取所需的數據：商家的星級、評論數總和、評論數均值、最低價均值、最高價均值、價格均值、商品數量、占比。針對星級、評論數均值、價格均值、商品數量做標準化處理，并計算加權分。

三、分析：歪果情趣內衣哪家強

1、不同商家的星級排名

平均星級達4.15分，高于平均分的商家超過一半（17/32）
Top1的LALAVAVA高達4.9分，緊隨其后也有5家達到4.5分。
倒數第一N-pearI只有3.2分

讓我看看LALAVAVA長什么樣。亞馬遜上的商品，看上去就是普通泳衣，米國人還是很保守的嘛~

但評分高真的就說明產品好嗎？不如來看看評論數吧。

②不同商家的平均評論數排名

首先平均評論數只有193條，而且高于平均線的只有不到三成（12/32），想想淘寶動輒上萬，我們的人口優勢讓米國人羨慕呀；
再來看星級Top1的LALAVAVA，評論數少得可憐，那么對其商品真實質量就要存疑了；
而星級倒數的N-pear I，同樣評論數很少，那大概率其商品其實不咋地；
反觀評論數Top1的Garmol，其星級評價4.4，口碑佳評論也多，看來是不錯的商品；
緊隨其后的幾家，其星級分數就低于平均分了

那么，亞馬遜的星級評價難道就只受評論數的幾顆星比例影響嗎？我查閱了網上的一些資料，發現亞馬遜評價星級評定的三個重要因素：評論距離現在的時間，評論被買家投票采納數，評論是否有verified purchase標志（意指真實買家）。此外，評論的字符數，被點擊次數等因素也可能會對評論星級有影響。

看來，亞馬遜對評論的監控和管理是非常嚴格而復雜的！當然，最重要的還是看看評論第一名的Garmol長什么樣：

比上邊的泳衣更點題了，大家說好才是真的好，very sexy！

2、不同商家的價格區間排名（按均價）

從圖上來看，明顯ELOVER鎖定的是高端市場，定價區間在49刀左右；相反，Goddessvan定價僅0.39刀，還只有一款，猜測可能是虧本沖量，提高商家曝光，搶奪低端市場
從均價來看，基本分布在10-20刀間，說明這是情趣內衣市場的主要價格區間；但20-40刀區間居然沒有任何商家，可以在這一塊深入研究，看能不能找到證據說明該區間是藍海，有更大的市場潛力
而從每個商家的價格區間來看，大多數都是采取多顏色或款式的策略，一方面為用戶提供更多選擇，另一方面也體現了商家的上新能力；而僅有少數幾家采取了單一爆款的策略

最奢華的ELOVER看上去果然比較女神，縮略圖都比別家更用心。

那么，到底哪個商家的策略更靠譜，市場份額更大呢？

3、商家的商品數量餅

在Top100的商品占比中，Avidlove以28%的巨大優勢稱霸
而其他商家基本都是個位數的占比，沒有很明顯的優劣勢

Avidlove的內衣是酷酷風的，我喜歡。

單一方面畢竟還是很難衡量哪家商家更優秀，不如綜合多個指標來分析吧~

4、不同商家的加權分排名

將星級、平均評論數、商品均價、商品數量進行標準化處理后，因為不好拍定加權的比例，便將4項的歸一化結果x10后直接累加得到總分，并制作成條形堆積圖。

而每個商家的4項指標的占比，則側面反映其自身的優劣勢。

Avidlove，剛剛的酷酷風內衣，在其他三項中規中矩的情況下，以商品數量優勢奪得綜合分第一，有種農村包圍城市的感覺
Garmol，主要依靠口碑（星級、平均評論數）的優勢，奪得了第二名
ELOVER，主要依靠精準切分高端市場，奪得了第三名
N-pearI，沒有任何優勢，不出意料的光榮墊底

口碑最差的N-pearI，能搜到的商品也最少，不過圖很勁爆，emm……然而不是我的菜

粗略來看的話，想要排名靠前，口碑一定不能太差，至少要保持在平均水平及以上！

5、不同商家的星級/價格散點圖

用Python做了張散點圖，x軸為商家的商品均價，y軸為商家的星級，點大小為商品數量，商品數量越大，點越大，點顏色為評論均值，評論均值越大，顏色越深紅。

利用價格均值和星級均值，將圖切分為四個象限：

①左上象限：實惠好評的商家

②右上象限：有點貴，但一分錢一分貨的商家

③右下象限：貴，但質量不咋地的商家

④左下象限：便宜沒好貨的商家

所以借助這張散點圖，挑商家買東西就容易多啦：

追求性價比，可選擇Avidlove，而且商品多，任君挑選；
追求高端，可選擇ELOVER，它貴有它的道理；
追求大眾，可選擇Garmol，評論數最多，而且好評居多。

顧客可以根據自己的喜好挑選合適的商家，那么作為商家如何改進自己呢？

6、詞頻分析

前面在爬取的過程中，同樣爬取了評論標簽，通過對此進行詞頻分析，可以發現顧客最關心的依次是：

是否合身：size、fit等相關字眼多次出現且排位靠前
質量：good quality、well made；soft and comfortable、fabric是對材質的肯定
款式：cute、sexy、like the picture你懂的
價格：cheaply made勉強算價格吧，但更多是對商品質量的懷疑
口碑：highly recommend，評論的還是非常有參考價值的

評論標簽的數量較少，進一步對2.4w條評論進行詞頻分析，并制作成詞云：

快夸我底圖選得好！

最直觀的，仍然是跟“是否合身”以及質量或款式有關。那么我們就從顧客購買商品的Size&Color繼續分析

這里，Size&Color的詞頻數據存在幾點問題：1、數據量較少，僅有約6000條2、Size&Color無法較好的區分開，因此一起分析3、商家的命名規則不同，比如同樣是黑色款，有個商家會命名black，而有的可能是style1（所以一些奇怪的數字編號其實是商家的款式編號）4、有些奇怪的字眼如trim可能是爬蟲時爬錯了或者導出csv時的格式錯亂

可以明顯看出：

Size方面：large、medium、small肯定均有涵蓋，但另外還有xlarge、xxlarge、xxxlarge，亞馬遜主要是歐美顧客，可能體型相對較大，所以商家應該多研發以及備貨針對體型較大的顧客的商品。

Color方面：非常直觀：Black > red > blue > green > white > purple....所以黑色、紅色永遠不會錯；綠色是出乎我意料的，商家也可以大膽嘗試。

Style方面：詞頻中出現trim、lace字眼，蕾絲最高！！！

最后

在分析了Top100的商品信息和2.4w條評論后，作為一篇正經的python數據分析研究，我們來總結一下亞馬遜情趣內衣產品和銷售策略：

1、一定要注意的競品

Garmol、ELOVER、Avidlove分別在口碑、定價、產品數量三個方向有其核心優勢，是需要重點研究的競爭對手。

2、口碑很重要

Review和星級是影響口碑的重要因素，需要深入研究其算法機制并制定針對性的營銷策略
Review和星級有基礎要求
平均星級達4.15分，高于平均分的商家超過一半
平均評論數只有193條，高于平均線的商家約三成
Review相對淘寶評論較少，亞馬遜的算法復雜且懲罰力度大，因此Review重精勝于重多

3、定價策略

主流市場競爭激烈，價格多集中在10-20刀間
高端市場有切入機會，目前僅ELOVER一家，價格在40-55刀間
低端市場價值不大，利潤空間小，為了提高曝光或鋪量可考慮，但不利于以后沖擊中高端市場
中高端市場機會巨大，20-40刀區間暫無其他商家，有巨大的市場潛力

4、產品策略

應結合目標市場和定價，提高研發和上新能力，先多產品試錯，再嘗試單一爆款鞏固市場
內衣尺寸：合身最重要，需貼合國外顧客的體型，一般large及以上。顏色上：保守可多使用黑色、紅色，同時可大膽嘗試綠色。款式上：多采用蕾絲裝飾
質量和品控是底線

5、拓展&思考：

亞馬遜Best Sellers是每小時更新一次，理論上可以每一小時爬一次，看商品的排名變化，是否有新品等，可以嘗試自動化爬蟲；
針對上一點，但商品的評論內容并不是經常更新的，如何去重避免重復爬取？（類似于斷點續傳功能）；
此次也有爬取商品圖片的鏈接，可全部下載；在積累一定的圖片素材以后，就可以一定程度上看出顏色、甚至是款式的趨勢。

——————一次完整的數據分析就結束了——————

評論0 贊同0

加載中...

Zack

回答于2022-06-28 15:50

這個的話，看你是學什么專業的，干的什么工作，結合工作來說，數據分析的話有點專業性較強，沒有基礎的話，可能學習起來比較難，所以結合自己的專業，工作等等。如果真的想要學習的話，多看看視頻，別人的教學視頻，或者在一些云課堂上面都有好多，我自己還是比較喜歡網易云課堂的，比較不錯，也學會了很多。祝你成功！

評論0 贊同0

加載中...

Mr_houzi

回答于2022-06-28 15:50

大家都知道我一直專注于數據分析領域，在知乎上面也發表了些數據分析方面的文章，帶動了不少有這方面想法的小伙伴想進入數據分析領域。

不少小伙伴會私信我，提出自己學習數據的一些想法和計劃，但其中有些同學的想法讓我感覺到大家在數據入門方面可能走入了一些歧途，典型的聊天一般是這樣的：

現在有不少數據方面的"小白"，來自運營、產品，大家學習數據的切入卻選擇了學習類似Python這樣的編程語言。這樣的想法確實讓我感覺有必要發文一篇，以免更多的朋友南轅北轍、誤入歧途。

我一直認為各行各業的同學都應該具備一定的數據分析能力，哪怕你不是或者也不準備做一名數據分析師。原因在于數據分析是一種思想，是一種高效且行之有效的認識這個世界的能力。

即便你本人并不做數據分析師，一旦具備了這種思想和能力，也能夠讓你在自己的領域看的更高、更遠、更透徹。而類似Python這樣的編程語言是一門工具，也僅僅是一門工具而已。即便掌握了這門工具，也并不代表你掌握了數據分析的思想和能力。

更何況，這樣的工具對于非IT領域的同學來說過于繁瑣，學習成本是非常高的。這也是為什么要選擇FineBI這樣的工具作為數據分析的工具，因為FineBI足夠簡單，上手夠快，并能夠支撐數據分析的一般需求，更重要的是我們的課程是要教給大家數據分析的思路和想法，工具學習成本越低越好。
（a.我曾見到過的一個數據科學家，只會用Sql+excel做模型，他幫助公司收入增長了300%，3個億。注意只會sql+excel，但是他的分析思路和高度是我所佩服的；
b.我見到過太多太多python，學到一半沒有實際應用場景而放棄的，也見到過學會了python入門，但不知道如何運用到工作因此浪費時間的。這里并不是指python不好，而是我建議先入門，入門之后，再根據業務場景去學語言工具，會python肯定是數據分析師的主流，但并不是入門的好工具。）

所以，我給大家的建議是：首先，大家應該將精力集中于數據分析思路的培養和訓練上，多去看一些商業數據模型和數據分析案例方面的資料，結合自己的工作場景和特點，形成自己的數據分析思路；

其次，學習一個上手最簡單的數據分析工具，利用已有的數據和自己的分析思路進行分析，形成看板或者結論；最后，重點鍛煉一下自己演講和PPT的制作能力。

要知道，一個優秀的數據分析結論，也需要有好的演講者說服他的聽眾去接受，也需要有清晰的PPT把整個思想展示給閱讀者。畢竟，在這個時代，酒香也怕巷子深。

為什么我會這么建議大家呢？因為每件事情都是有成本的，而一旦有成本就意味著我們需要有收益。我們每一個人都不是萬能的，我們有自己的長處，也有自己的短板。我們在學習時，應該結合自身的特點和情況，最快的從我們的付出中見到成效。

其實，對于并不在數據分析領域的同學來說，也許絕大多數人都沒有辦法成為一名數據科學家，但卻更有可能成為自己領域的大牛：一名優秀的運營專家、產品經理、HR、財務、銷售、咨詢顧問。讓數據分析成為你在自己職業發展中的一項助力，讓它更好的幫助到你本身的職業發展，也許才是學習數據分析的正確思路和定位。
最后，認清自己的優勢和劣勢，明確自己職業發展的方向，選擇最適合自己的道路，做一個最好的自己，這才是每一個人最正確的選擇。

各位，如果覺得自己并不是對數據很有興趣，只是覺得多一個就業方向，那我建議大家學英語會更實際一點。

評論0 贊同0

加載中...

fuchenxuan

男|

我要關注我要私信

TA的文章

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

問答專欄Q & A COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

職場小白如何學習數據分析？

寫回答

5條回答

wwolf

回答于2022-06-28 15:50

codecraft

回答于2022-06-28 15:50

lavor

回答于2022-06-28 15:50

Zack

回答于2022-06-28 15:50

Mr_houzi

回答于2022-06-28 15:50

相關問題