{eval=Array;=+count(Array);}
先確認下自己是否對此感興趣,正感興趣就考慮學習,不論是自學還是參加學習,都務必要有堅定的信念,當然學習數據分析是需要一定的數學、統計基礎,同時需要掌握一點數據分析的工具軟件,若有人帶你學習或指導你,將會事半功倍,我知道比較牛的數據分析專家是趙強,舒立克商學院數據分析教授,有興趣可以了解下他,
完整的數據分析流程:
? 業務建模。
? 經驗分析。
? 數據準備。
? 數據處理。
? 數據分析與展現。
? 專業報告。
? 持續驗證與跟蹤。
1、 數據采集
了解數據采集的意義在于真正了解數據的原始面貌,包括數據產生的時間、條件、格式、內容、長度、限制條件等。
2、數據存儲
在數據存儲階段,數據分析師需要了解數據存儲內部的工作機制和流程,最核心的因素是在原始數據基礎上經過哪些加工處理,最后得到了怎樣的數據。
3、數據提取
在數據提取階段,數據分析師首先需要具備數據提取能力。其次是理解業務需求的能力。
4、數據挖掘
在數據挖掘階段,數據分析師要掌握數據挖掘相關能力。一是數據挖掘、統計學、數學基本原理和常識;二是熟練使用一門數據挖掘工具,Clementine、SAS或R都是可選項,如果是程序出身也可以選擇編程實現;三是需要了解常用的數據挖掘算法以及每種算法的應用場景和優劣差異點......
加米谷大數據開發培訓9月0基礎班,預報名中...
相關:
數據分析師的完整工作流程與知識結構體系
https://www.toutiao.com/i6584961126356746760/
想要深入學習數據分析,第一步是要進行Python實戰,然后需要對業務進行深入的理解,建立指標體系和思路,因為脫離了業務的數據分析基本上就是瞎胡鬧。
這里我就不談業務了,先演示一下如何利用Python做一次真正的、完整的數據分析實操。
————————Python實操正文————————
比如說,我想要研究亞馬遜上Top100的細分品類——女式內衣的銷售情況。(還有點不好意思)
分析分為三步:數據采集、數據清理、可視化分析
一、如何爬取內衣數據Python爬數據很簡單,我個人總結大致就 3點:請求數據、進行數據處理、寫數據。
會有幾種可能:
會有幾種可能:
遇到這種頁面通過抓包或者簡單的在網站上審查請求,然后找的你想要的那部分數據,如果是js渲染的html,其實就是js拼寫的html,只要把其他無用的數據匹配掉用正則找到剩下想要的html文本就好了 。然后BS4解析。
open方法進行文件打開 里面的參數進行文件格式設置,讀寫文件、編碼格式操作
文件格式我用過的就是txt、csv 、xml 大部分文本格式都支持的。
a--是創建文件 每次寫都是重新創建w--是追加a--是讀數據encoding="utf-8"這句話 不加encoding= 在windows系統下會報編碼錯誤,linux不會。
然后就是數據量太大,寫入到數據庫數據庫就用sqlite,記得引入模塊 import sqlite3,就是創建數據表。
好了,不啰嗦,開始爬數據。
1、爬取商品排名和詳情頁鏈接
需要爬取的具體字段:排名(Rank),商品名(item_name),商品詳情頁鏈接(item_link)、商品圖片鏈接(img_src)。
2、在商品詳情頁爬取更多商品信息
店家名、店家鏈接、商品名、價格
星級、評論標簽
核心:
3、爬取評論
評論內容,星級
核心:
4、爬取size和color數據
和第三步基本一樣,代碼基本一樣,主要在于要確認每頁評論的size&color個數。
二、數據清洗和預處理1、讀取、清洗數據
從csv文件讀取100個商品的數據,篩選出所需要的字段,進行數據清洗。
這里注意,部分讀取的數據,看似是數值,實際是字符,因此需要進行類型轉換(如price拆分后,還需要轉為float型)
需要參與數值計算的NaN,使用平均值進行替換。
2、以商家維度處理數據
獲取所需的數據:商家的星級、評論數總和、評論數均值、最低價均值、最高價均值、價格均值、商品數量、占比。針對星級、評論數均值、價格均值、商品數量做標準化處理,并計算加權分。
三、分析:歪果情趣內衣哪家強1、不同商家的星級排名
讓我看看LALAVAVA長什么樣。亞馬遜上的商品,看上去就是普通泳衣,米國人還是很保守的嘛~
但評分高真的就說明產品好嗎?不如來看看評論數吧。
②不同商家的平均評論數排名
那么,亞馬遜的星級評價難道就只受評論數的幾顆星比例影響嗎?我查閱了網上的一些資料,發現亞馬遜評價星級評定的三個重要因素:評論距離現在的時間,評論被買家投票采納數,評論是否有verified purchase標志(意指真實買家)。此外,評論的字符數,被點擊次數等因素也可能會對評論星級有影響。
看來,亞馬遜對評論的監控和管理是非常嚴格而復雜的!當然,最重要的還是看看評論第一名的Garmol長什么樣:
比上邊的泳衣更點題了,大家說好才是真的好,very sexy!
2、不同商家的價格區間排名(按均價)
最奢華的ELOVER看上去果然比較女神,縮略圖都比別家更用心。
那么,到底哪個商家的策略更靠譜,市場份額更大呢?
3、商家的商品數量餅
Avidlove的內衣是酷酷風的,我喜歡。
單一方面畢竟還是很難衡量哪家商家更優秀,不如綜合多個指標來分析吧~
4、不同商家的加權分排名
將星級、平均評論數、商品均價、商品數量進行標準化處理后,因為不好拍定加權的比例,便將4項的歸一化結果x10后直接累加得到總分,并制作成條形堆積圖。
而每個商家的4項指標的占比,則側面反映其自身的優劣勢。
口碑最差的N-pearI,能搜到的商品也最少,不過圖很勁爆,emm……然而不是我的菜
粗略來看的話,想要排名靠前,口碑一定不能太差,至少要保持在平均水平及以上!
5、不同商家的星級/價格散點圖
用Python做了張散點圖,x軸為商家的商品均價,y軸為商家的星級,點大小為商品數量,商品數量越大,點越大,點顏色為評論均值,評論均值越大,顏色越深紅。
利用價格均值和星級均值,將圖切分為四個象限:
①左上象限:實惠好評的商家
②右上象限:有點貴,但一分錢一分貨的商家
③右下象限:貴,但質量不咋地的商家
④左下象限:便宜沒好貨的商家
所以借助這張散點圖,挑商家買東西就容易多啦:
顧客可以根據自己的喜好挑選合適的商家,那么作為商家如何改進自己呢?
6、詞頻分析
前面在爬取的過程中,同樣爬取了評論標簽,通過對此進行詞頻分析,可以發現顧客最關心的依次是:
評論標簽的數量較少,進一步對2.4w條評論進行詞頻分析,并制作成詞云:
快夸我底圖選得好!
最直觀的,仍然是跟“是否合身”以及質量或款式有關。那么我們就從顧客購買商品的Size&Color繼續分析
這里,Size&Color的詞頻數據存在幾點問題:1、數據量較少,僅有約6000條2、Size&Color無法較好的區分開,因此一起分析3、商家的命名規則不同,比如同樣是黑色款,有個商家會命名black,而有的可能是style1(所以一些奇怪的數字編號其實是商家的款式編號)4、有些奇怪的字眼如trim可能是爬蟲時爬錯了或者導出csv時的格式錯亂
可以明顯看出:
Size方面:large、medium、small肯定均有涵蓋,但另外還有xlarge、xxlarge、xxxlarge,亞馬遜主要是歐美顧客,可能體型相對較大,所以商家應該多研發以及備貨針對體型較大的顧客的商品。
Color方面:非常直觀:Black > red > blue > green > white > purple....所以黑色、紅色永遠不會錯;綠色是出乎我意料的,商家也可以大膽嘗試。
Style方面:詞頻中出現trim、lace字眼,蕾絲最高!!!
最后在分析了Top100的商品信息和2.4w條評論后,作為一篇正經的python數據分析研究,我們來總結一下亞馬遜情趣內衣產品和銷售策略:
1、一定要注意的競品
Garmol、ELOVER、Avidlove分別在口碑、定價、產品數量三個方向有其核心優勢,是需要重點研究的競爭對手。
2、口碑很重要
3、定價策略
4、產品策略
5、拓展&思考:
——————一次完整的數據分析就結束了——————
這個的話,看你是學什么專業的,干的什么工作,結合工作來說,數據分析的話有點專業性較強,沒有基礎的話,可能學習起來比較難,所以結合自己的專業,工作等等。如果真的想要學習的話,多看看視頻,別人的教學視頻,或者在一些云課堂上面都有好多,我自己還是比較喜歡網易云課堂的,比較不錯,也學會了很多。祝你成功!
大家都知道我一直專注于數據分析領域,在知乎上面也發表了些數據分析方面的文章,帶動了不少有這方面想法的小伙伴想進入數據分析領域。
不少小伙伴會私信我,提出自己學習數據的一些想法和計劃,但其中有些同學的想法讓我感覺到大家在數據入門方面可能走入了一些歧途,典型的聊天一般是這樣的:
現在有不少數據方面的"小白",來自運營、產品,大家學習數據的切入卻選擇了學習類似Python這樣的編程語言。這樣的想法確實讓我感覺有必要發文一篇,以免更多的朋友南轅北轍、誤入歧途。
我一直認為各行各業的同學都應該具備一定的數據分析能力,哪怕你不是或者也不準備做一名數據分析師。原因在于數據分析是一種思想,是一種高效且行之有效的認識這個世界的能力。
即便你本人并不做數據分析師,一旦具備了這種思想和能力,也能夠讓你在自己的領域看的更高、更遠、更透徹。而類似Python這樣的編程語言是一門工具,也僅僅是一門工具而已。即便掌握了這門工具,也并不代表你掌握了數據分析的思想和能力。
更何況,這樣的工具對于非IT領域的同學來說過于繁瑣,學習成本是非常高的。這也是為什么要選擇FineBI這樣的工具作為數據分析的工具,因為FineBI足夠簡單,上手夠快,并能夠支撐數據分析的一般需求,更重要的是我們的課程是要教給大家數據分析的思路和想法,工具學習成本越低越好。
(a.我曾見到過的一個數據科學家,只會用Sql+excel做模型,他幫助公司收入增長了300%,3個億。注意只會sql+excel,但是他的分析思路和高度是我所佩服的;
b.我見到過太多太多python,學到一半沒有實際應用場景而放棄的,也見到過學會了python入門,但不知道如何運用到工作因此浪費時間的。這里并不是指python不好,而是我建議先入門,入門之后,再根據業務場景去學語言工具,會python肯定是數據分析師的主流,但并不是入門的好工具。)
所以,我給大家的建議是:首先,大家應該將精力集中于數據分析思路的培養和訓練上,多去看一些商業數據模型和數據分析案例方面的資料,結合自己的工作場景和特點,形成自己的數據分析思路;
其次,學習一個上手最簡單的數據分析工具,利用已有的數據和自己的分析思路進行分析,形成看板或者結論;最后,重點鍛煉一下自己演講和PPT的制作能力。
要知道,一個優秀的數據分析結論,也需要有好的演講者說服他的聽眾去接受,也需要有清晰的PPT把整個思想展示給閱讀者。畢竟,在這個時代,酒香也怕巷子深。
為什么我會這么建議大家呢?因為每件事情都是有成本的,而一旦有成本就意味著我們需要有收益。我們每一個人都不是萬能的,我們有自己的長處,也有自己的短板。我們在學習時,應該結合自身的特點和情況,最快的從我們的付出中見到成效。
其實,對于并不在數據分析領域的同學來說,也許絕大多數人都沒有辦法成為一名數據科學家,但卻更有可能成為自己領域的大牛:一名優秀的運營專家、產品經理、HR、財務、銷售、咨詢顧問。讓數據分析成為你在自己職業發展中的一項助力,讓它更好的幫助到你本身的職業發展,也許才是學習數據分析的正確思路和定位。
最后,認清自己的優勢和劣勢,明確自己職業發展的方向,選擇最適合自己的道路,做一個最好的自己,這才是每一個人最正確的選擇。
各位,如果覺得自己并不是對數據很有興趣,只是覺得多一個就業方向,那我建議大家學英語會更實際一點。
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答