摘要:網頁源碼解析智聯招聘信息頁面根據招聘列表里面跳轉過來的詳細招聘信息頁面。巨優信息是法國阿爾卡特朗訊公司企業通信系統全國金牌代理商,同時也是華為思科等國際知名品牌的核心合作伙伴。主頁是智聯招聘里唯一能夠讓企業自己定制的頁面了。
網頁源碼解析 - 智聯招聘信息頁面
根據招聘列表里面跳轉過來的詳細招聘信息頁面。爬蟲再根據這里進行關鍵信息提取。
相比于搜索列表頁來說,這頁內容很簡單,而我們需要的也不多。
不過需要注意的是,這里在職業信息之外還需要額外收集企業信息。
雖然另外有專門的代碼跳轉到企業主頁去搜集信息,但是閱讀源碼后發現,每家VIP企業都可以自己定制網頁,因此獲取基本信息不方便。
所以企業基本信息要在這一頁就收集齊(基本信息和企業主頁里是完全一樣的)。
下面開始簡單分析下各處源碼。
可以直接用class*="inner-left"對頭信息進行定位,然后在其中用h1標簽為職位名稱,h2標簽為公司名稱,class="welfare-tab-box"為福利信息。
職位基礎信息基礎信息定位很簡單,class^="terminal-ul"就夠了。但是其中的每個信息沒有標記,就只能用中文名稱或者是順序定位了。
信息內容全包含在strong標簽里。
- 公司規模:20-99人
- 公司性質:民營
- 公司行業:通信/電信運營、增值服務
- 公司主頁:http://www.G-best.com.cn
- 公司地址: 上海市徐匯區桂林路396號中核浦原科技園3號樓101室
定位的話,直接找到class中含有terminal-company的ul標簽,然后按照li標簽的順序或者按照中文文字匹配到企業基本信息。
職位描述信息任職要求:1、1年以上IT行業的售經驗,以通訊產品及服務器產品為主;
2、熟悉Siemens,NEC, Panasonic,Alcatel等PBX 機型,具有VOIP組網的相關銷售經驗;具備專業客戶銷售技巧;擅長與客戶交流并能迅速整合客戶所需資源;3、熟悉思科、華為、Alcatel等數據交換機,具有相關銷售經驗;具備專業客戶銷售技巧;擅長與客戶交流并能迅速整合客戶所需資源;
4、具備良好人際交往、市場策劃、方案演講、商務談判,有強烈的贏單欲望,樂于陌生人交流,善于溝通,性格穩重、勤奮,能夠承受較大銷售業績壓力。
5、有銷售同類語音交換機PBX、數據交換機 產品經驗者優先。
崗位職責:
1、負責本地區維護老客戶,拓展新市場,建立與擴大銷售網絡,提升銷售業績,完成總部或分公司交付的銷售任務;
2、建立和維護本地區的客戶關系,樹立良好的公司口碑和品牌形象;
3、負責項目投標的運作,包括商務文件的起草和整個標書的制作與審定;負責商務合同的起草、簽署和項目收款工作;
4、高標準地為客戶提供優質服務和妥善處理客戶投訴,以提高客戶的滿意度;
5、不斷學習新知識與新技術,提升自身的專業能力與職業素質;工作地點: 北京工作地址:北京市豐臺區南三環西路16號搜寶商務中心2號樓2608室 查看職位地圖
這個也好說,直接找到class="tab-inner-cont",然后自動排除所有標簽,只獲取文本信息就夠了。
需要注意的是,源碼里有2個class為tab-inner-cont的div,第1個是職位描述,第2個是企業簡介。
上面說過了,職位描述的class也為tab-inner-cont,所以獲取的時候按順序取值就好了。
網頁源碼解析 - 企業主頁智聯招聘的企業主頁分為2種:普通主頁和VIP主頁。VIP主頁是智聯招聘里唯一能夠讓企業自己定制的頁面了。
這也就形成了千奇百怪的源碼,分析起來并不容易。不過好在企業的基本信息,在招聘頁面就已經獲得了。
剩下唯一需要的信息就是企業的所有招聘信息了,也是非常重要的地方。
招聘信息在2種不同主頁中,在源碼中也分為了2種構建方式:
普通主頁:正常的tag循環陳列
VIP 主頁:在javascript中以list列表變量形式儲存,并動態顯示出來。
不過說回來,這也是不確定的解析,因為變化太多了,我只是隨機打開了一些頁面參考,不能代表全部。其實,最好的方法是在搜索頁面直接按公司名稱搜索,就得到他所有的招聘信息了。那么下面開始進行2種源碼的分析。
普通企業主頁職位名稱 公司名稱 職位月薪 工作地點 發布日期
地點:北京 公司性質:民營 公司規模:1000-9999人 經驗:3-5年 學歷:本科 職位月薪:15001-20000元崗位職責:? 1、公司核心數據庫的管理,保證數據庫正常運轉和數據的安全;包括安裝、配置、升級,數據備份、恢復,性能監控分析調優等;?2、參與開發設計,負責數據結構設計;?3、負責公司數據倉庫的建設。 任職要求:? 1、具有三年以上MySQL工作經驗;?2、精通MySQL數據庫的運行機制和體系架構;?3、精...
可以看到,大容器是class中含有positionList的div。其中每條招聘信息都是class="positionListContent"的div,職位鏈接其實非常好找,找到class="jobName"的span標簽獲取其下a鏈接的href地址就好了。
VIP企業主頁實際上VIP企業主頁也不全都是以下的構建方式,發現了一些少數的大公司,會完全不一樣,通過代碼來看,是真沒什么辦法的。。。
可以看到,該企業所有的招聘信息都存在Javascript腳本中的叫arrJobList的變量里了。變量的格式為:arrJobList=[[第1條招聘信息],[第2條招聘信息]],是列表嵌套列表。而每條招聘信息數據的內容為:["職位名稱","招聘網址","所在地點","城市代碼","行業名稱","行業代碼","企業名稱","企業代碼","發布日期","0","未知編號"]
其實這個地方,難點就在于怎么在python中獲取Javascript腳本中的變量……文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37661.html
摘要:網頁源碼解析智聯招聘搜索列表一開始必須要解析智聯招聘搜索列表頁,從這里更方便實現各種深層級數據抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網頁源碼解析 - 智聯招聘搜索列表 一開始必須要解析智聯招聘搜索列表頁,從這里更方便實現各種深層級數據抓取。網頁地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數 智聯招聘的服務...
摘要:智聯其實一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:之前接了一個活,做的功能是從智聯招聘爬取招聘信息賺了幾百塊零花錢實現了一個,如圖雖然比較丑,但是簡潔明了,落落大方已經是我水平的天花板了具體功能說明就不了,大家都能看懂的。。。。智聯招聘鏈接網頁是這個樣子的,反爬蟲不強。 之前接了一個活,做的功能是從智聯招聘爬取招聘信息賺了幾百塊零花錢實現了一個GUI,如圖:showImg(https://segmentfault.com/img/bV...
摘要:年月日爬取,爬蟲代碼不知道是否失效文章目錄爬蟲目標具體過程源碼爬蟲目標要求搜索大數據專業,爬相關公司的招聘信息。 2021年10月7日爬取,爬蟲代碼不知道是否失效 ...
閱讀 3915·2021-11-16 11:50
閱讀 927·2021-11-11 16:55
閱讀 3659·2021-10-26 09:51
閱讀 856·2021-09-22 15:03
閱讀 3409·2019-08-30 15:54
閱讀 3260·2019-08-30 15:54
閱讀 2468·2019-08-30 14:04
閱讀 919·2019-08-30 13:53