摘要:簡介試著,做了一個拉勾網數據分析師職位的數據分析。數據透視表統計,繪圖。看來,我們這些想做數據分析師的人,都無法逃離北上廣啊。總結對于數據分析崗,招聘公司主要位于南方,但是以北京公司最多。
簡介:試著,做了一個拉勾網數據分析師職位的數據分析。
其實,雖然很想做數據分析師,但是是跨行,心里相當忐忑,做這個分析就相當于加深自己對數據分析這個行業的了解了。
大致思路
起始 數據來源本來是想自己寫個爬蟲的,可是學了好久,還是不能融會貫通,總會出一些bug,只能繼續學習,爭取早日修成爬神功。又想著,總不能還沒開始,就結束了這次實驗。最后無意中發現了一個爬蟲工具--八爪魚、、只需要點點點(其實,當時有種挫敗感)。不過,總算數據總算有了。
數據的采集數據的具體采集過程如下:
下載安裝八爪魚采集器。
創建任務,選擇列表及詳情。
輸入任務名稱、備注。
輸入采集網址
設置詳情頁鏈接,也就是點進具體的詳情頁。
設置好翻頁。
點擊需要采集的數據信息。
開始采集。
數據導出為excel。
過程 數據的清洗與處理
這里試著用了兩種工具,Excel + Python,也比較了一下二者的優點。與前人所述基本一致,紙上得來終覺淺啊。
想說一下字段的命名,如果用了Python進行處理的話,最好還是把字段命名為英文,或者說字母。可以簡化后期處理,會方便很多。
當然,你如果全用Excel是用中文命名,也是沒有問題的。
字段
Excel的處理過程 預防萬一
所謂預防萬一,就是將Excel另存一份源數據,以免后期發生不可預知錯誤。
清洗與處理 命名字段 處理salary列新建工作表,將salary字段復制過來。
清除所有格式。
數據-分列-固定符號-"-"
查找替換 k。這里說明下,清除格式后,無論查找大寫K還是小寫k,均可。
因為抓取的數據是一組區間值,無法直接使用,因此取薪資的中間值也就是平均值。使用函數 "MEDIAN" ,它會返回一組數的中值,或者使用 "AVERAGE" 也可。得到的值如下:
再對這組值進行數據分析,數據-數據分析-描述統計,得到最大值,最小值,全距,再根據公式計算組數,組距,進行數據分組,再根據 " FREQUENCY "函數計算每組頻率。
接下來,就可以繪制圖表了。
ps:或者直接在第5步,采用數據分析工具中的直方圖,進行分析。
處理experience、city、education、property、scale列
新建工作表,復制。
清除所有格式。
使用函數 "SUBSTITUTE" 替換所有 "/",或者直接查找替換。
數據透視表統計,繪圖。
新建工作表,復制。
清除所有格式
查找替換"、",","為半角“,”。
分列。
這樣,基本就處理完了。
從圖中可以看出,17個行業中,移動互聯網對數據人才的需求量是最大的,其次是金融和電子商務,而生物服務、文化娛樂、旅游、分類信息、硬件等的需求量最少。我認為,這從一個側面反映了移動互聯網數據量的巨大,以及對人才的渴求。
城市與職位首先看一下,職位主要分布的區域:
從圖中可以看到,招聘公司主要位于南方,東三省竟然沒有。我認為,這個時代,對數據的重視程度從某種程度上說明了發展的質量,就這個樣本數據來說,從某種程度上反映了東三省的發展速度較慢,不如南方。
再看一下,城市與職位:
這里主要截取了前10個城市,毫無意外,北上廣赫然在列,杭州也很多,排在廣州前面。看來,我們這些想做數據分析師的人,都無法逃離北上廣啊。嗯,你也可以去杭州,據在那兒生活了七八年的同學來說,他不想走了。
行業、城市與薪資前面數據處理得到了每個職位的平均薪資,這里進一步處理得到了每個行業在每個城市的平均薪資。下圖是招聘最多的幾個行業在每個城市的平均薪資。
從圖中可以知道,整體上相對來說,廣州在這些行業中屬于較低的。北京、上海差距不是太大。
招聘公司融資階段 招聘不同職稱的數量這里借助python進行了統計:
python import pandas as pd data = pd.DataFrame(pd.read_csv(r"C:UserssunshineDesktop2017.8.20.csv",encoding = "gbk")) data.columns positionName = [] for i in range(len(data.position)): if "實習" in data.position[i]: positionName.append("實習") elif "助理" in data.position[i]: positionName.append("助理") elif "專員" in data.position[i]: positionName.append("專員") elif "主管" in data.position[i]: positionName.append("主管") elif "經理" in data.position[i]: positionName.append("經理") elif "工程師" in data.position[i]: positionName.append("工程師") elif "總監" in data.position[i]: positionName.append("總監") elif "科學家" in data.position[i]: positionName.append("科學家") elif "架構" in data.position[i]: positionName.append("架構師") else: positionName.append("其他") data["positionName1"] = positionName data["positionName1"].value_counts()
這里沒有用matplotlib畫,借用了echarts。
招聘公司對個人能力的要求 招聘公司對應聘者的學歷要求
從圖中我們很明顯可以得到,公司對應聘者的學歷要求,本科以上占了絕大部分,這說明,90%以上的公司對應聘者的學歷要求很高,我認為,這可能有以下原因:
分析行業對應聘者的知識水平要求還是很高的,因為數據分析師不但要涉及很多高等數學,統計學,概率論,線性代數等數學知識,還要涉及很多行業知識。
這個行業需要應對很多日新月異的信息,各種東西更新迭代非常快,因此對應聘者的自學能力提出了很高的要求。
招聘公司對應聘者經驗的要求
大部分公司招的都是1-5年的,1年之下和經驗不限的很少,所以說,實習經驗很重要,沒有實習經歷,太難入行了。我淚奔。公司需要的都是老鳥啊。
招聘公司對應聘者工具掌握的要求這里使用了python進行了正則匹配,和詞云生成。
python import re import numpy as np import pandas as pd import matplotlib.pyplot as plt import jieba as jb from wordcloud import WordCloud #轉換數據格式 word_str = "".join(data["deion"]) #對文本進行分詞 word_split = jb.cut(word_str) #使用|分割結果并轉換格式 word_split1 = "| ".join(word_split) #設置要匹配的關鍵詞 pattern=re.compile("sql|mysql|posgresql|python|excel|spss|matlab|ppt|powerpoint|sas|[r]|hadoop|spark|hive|ga|java|perl|tableau|eviews|presto") #匹配所有文本字符 word_w=pattern.findall(word_split1) word_s = str(word_w) my_wordcloud = WordCloud().generate(word_s) plt.imshow(my_wordcloud) plt.axis("off") plt.show()
有點丑...
因此,換了個工具.....
好看點了,無論哪張圖都說明,除了excel,如果,你懂R或者python,再加上SQL,和spss,喔,你是個香餑餑。
招聘公司對應聘者技能的要求
可以看到,公司對應聘者的要求大部分在數據分析能力和產品、業務等方面。看來,數據分析師最重要的還是懂業務,這也是我想發展的方向。至于數據挖掘方向,對數學功底要求太高了,畢竟我不是科班出身。但是,我覺得平時在實驗室做的實驗,其實和業務是一個道理。只不過,是將實驗換成了產品。
總結對于數據分析崗,招聘公司主要位于南方,但是以北京公司最多。不需要融資,B輪和上市公司對于該崗位的需求較大。并且主要是移動互聯網行業的公司。企業對于應聘者的工具掌握多是Excel,Spss,Python,R,SQl等,如果你全會,那基本就是個香餑餑。在技能方面,企業比較看重數據分析,以及對業務、運營的理解。而對于應聘者而言,本科生學歷完全足夠了。就薪資而言,廣州多有行業較其他城市偏低,北京和上海在同等工作經歷下,薪資要領先于其他城市。
網易云課堂專欄課程:大數據分析必備利器《R語言數據分析必知必會》http://study.163.com/course/c...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41963.html
摘要:另外數學成為了一個關鍵詞,編程語言主要是等,運營也出現在詞云中說明數據分析師也需要有運營能力。 功能點 爬取數據 所有公司數據,名稱簡寫,城市,行業,職位數量,人數范圍,標簽,介紹,融資階段,平均工資 github2016年度最受歡迎編程語言相應年數薪水,城市,學歷要求,公司融資階段,公司行業 大數據行業五大崗位相應年數薪水,城市,學歷要求,公司融資階段,公司行業,崗位要求 編程語...
摘要:前言之前斷斷續續學習了,今天就拿拉勾網練練手,順便通過數據了解了解最近的招聘行情哈方面算是萌新一個吧,希望可以和大家共同學習和進步。 前言 之前斷斷續續學習了node.js,今天就拿拉勾網練練手,順便通過數據了解了解最近的招聘行情哈!node方面算是萌新一個吧,希望可以和大家共同學習和進步。 一、概要 我們首先需要明確具體的需求: 可以通過node index 城市 職位來爬取相關信...
摘要:然后準備再去抓下拉勾網的招聘數據,這也是個相對優秀的專業招聘網站了,數據也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗 零、致謝 感謝BOSS直聘相對權威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續...
摘要:然后準備再去抓下拉勾網的招聘數據,這也是個相對優秀的專業招聘網站了,數據也相當多,想當初找實習找正式工作,都是在這兩個上找的,其他的網站幾乎都沒看。 原文地址:http://www.jtahstu.com/blog/s... Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述 和 數據清洗 零、致謝 感謝BOSS直聘相對權威的招聘信息,使本人有了這次比較有意思的研究之旅。 由于爬蟲持續...
摘要:本文代碼地址爬取豆瓣電影爬取拉勾網職位信息模擬登陸知乎為什么沒人給我點贊。職位名職位信息運行結果模擬登錄知乎通過開發者工具,獲取的數據。 我開通了公眾號【智能制造專欄】,以后技術類文章會發在專欄。用Python寫爬蟲是很方便的,最近看了xlzd.me的文章,他的文章寫的很到位,提供了很好的思路。因為他的文章部分代碼省略了。下面是基于他的文章的三個代碼片段:基于Python3,Pytho...
閱讀 1798·2021-11-24 10:21
閱讀 1208·2021-09-22 15:25
閱讀 3170·2019-08-30 15:55
閱讀 708·2019-08-30 15:54
閱讀 3461·2019-08-30 14:20
閱讀 1659·2019-08-30 14:06
閱讀 638·2019-08-30 13:11
閱讀 3144·2019-08-29 16:43