国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

一個簡單拉鉤網(wǎng)python爬蟲

xumenger / 3436人閱讀

摘要:如果想這樣解析頁面獲取數(shù)據(jù)有以下幾個問題職位列表最多只有頁職位關(guān)鍵信息獲取不全比如一個職位的地點應(yīng)該屬于市區(qū)商區(qū)樓,這種信息只靠解析頁面是獲取不全的。

前期準備

Don"t be evil!

主要就是分析需要抓取的頁面,或許會有意外驚喜,直接找到獲取數(shù)據(jù)的接口。

首選打開拉鉤網(wǎng)首頁,發(fā)現(xiàn)一個職位至少有一個一級分類、二級分類和一個標簽。比如需要點擊查找Java相關(guān)的職位,需要找到技術(shù)、后端開發(fā),然后點擊Java,才能獲取Java相關(guān)的職位列表。

職位列表就可以得到很多的關(guān)于職位的信息了,如職位名稱、公司名稱、公司logo、所屬行政區(qū)、商區(qū)等信息,但是需要提取這些信息的時候,xpath會讓人寫的很頭疼。

如果想這樣解析頁面獲取數(shù)據(jù)有以下幾個問題:

職位列表最多只有30頁

職位關(guān)鍵信息獲取不全

比如一個職位的地點應(yīng)該屬于XX市XX區(qū)XX商區(qū)XX樓,這種信息只靠解析頁面是獲取不全的。不過當(dāng)點擊城市的時候,查看發(fā)送的網(wǎng)絡(luò)請求,可以發(fā)現(xiàn)一個可喜的接口,這個接口將會返回一個職位列表的json數(shù)據(jù)。

但是因為為了防止爬蟲調(diào)用這個接口,使用接口的時候必須要帶上cookie。訪問首頁的時候,會獲取部分cookie值,但是唯獨沒有SEARCH_ID這個值。

但是這個cookie不是平白無辜的產(chǎn)生的,想想調(diào)用這個接口的頁面入口,觀察response的header,會發(fā)現(xiàn)有Set-Cookie:SEARCH_ID=7587e152a3b14eec8bb0f29e774e4094; Version=1; Max-Age=86400; Expires=Sun, 26-Feb-2017 17:16:05 GMT; Path=/

這樣前期的準備工作就完成了,可以開始編碼了。

開始編碼

通過前期分析,可以發(fā)現(xiàn)需要做這么幾項工作:

訪問首頁和職位過濾頁面獲取cookie

帶上cookie調(diào)用接口

具體的流程:

訪問首頁,獲取所有職位的標簽

按城市調(diào)用接口,同時獲取所有cookie

保存數(shù)據(jù)

所以需要一些工具。

動態(tài)加載頁面和獲取cookie:

Selenium with Python

PhantomJS

帶上cookie調(diào)用接口:

Requests: HTTP for Humans

源碼

結(jié)果

抓取的總量(已經(jīng)將數(shù)據(jù)保存在mongodb中了):

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/38454.html

相關(guān)文章

  • 爬蟲的一些知識羅列

    摘要:蠻荒時代遇到加密的網(wǎng)頁爬取是將混淆之后的加密代碼強行還原為代碼,很累現(xiàn)在有了這個方便的庫,能夠輕松很多,轉(zhuǎn)工具移動端抓取替代網(wǎng)頁端不少網(wǎng)站移動端的接口訪問比網(wǎng)頁端簡單多,反爬也弱一些,比如拉鉤網(wǎng)。什么是爬蟲 用我自己的話來總結(jié)就是通過模擬客戶端訪問服務(wù)器獲取數(shù)據(jù)的工具。爬蟲的簡易模型如下: showImg(https://user-gold-cdn.xitu.io/2019/5/22/16a...

    elva 評論0 收藏0
  • Python爬蟲學(xué)習(xí):微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法

    摘要:微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法摘要微信知乎新浪等主流網(wǎng)站的模擬登陸爬取方法。先說說很難爬的知乎,假如我們想爬取知乎主頁的內(nèi)容,就必須要先登陸才能爬,不然看不到這個界面。圖片描述知乎需要手機號才能注冊登陸。 微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法摘要:微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法。 網(wǎng)絡(luò)上有形形色色的網(wǎng)站,不同類型的網(wǎng)站爬蟲策略不同,難易程度也不一樣。從是...

    Kahn 評論0 收藏0
  • cockroach 爬蟲:又一個 java 爬蟲實現(xiàn)

    摘要:爬蟲又一個爬蟲實現(xiàn)原文簡介小強當(dāng)時不知道為啥選了這么個名字,又長又難記,導(dǎo)致編碼的過程中因為單詞的拼寫問題耽誤了好長時間。我是一個小強爬蟲線程數(shù)健壯說到健壯,這里主要體現(xiàn)在以下幾個方面應(yīng)對封鎖這里我們使用動態(tài)代理來解決這個問題。 cockroach 爬蟲:又一個 java 爬蟲實現(xiàn) 原文 簡介 cockroach[小強] 當(dāng)時不知道為啥選了這么個名字,又長又難記,導(dǎo)致編碼的過程中因為單...

    liangzai_cool 評論0 收藏0
  • node.js 爬取招聘信息分析各職業(yè)錢途(爬蟲+動態(tài)IP代理+數(shù)據(jù)可視化分析)

    摘要:成功爬取了拉鉤網(wǎng)上多個招聘崗位的具體信息后,數(shù)據(jù)可視化并得出分析結(jié)果如下從整體看,北上廣深杭這五個城市前端工程師招聘崗位,北京是遙遙領(lǐng)先,是深圳的兩倍,是廣州的三倍,其次到上海,深圳,杭州,廣州居末。 前前言 本文首發(fā)于 github blog 不想看爬蟲過程只想看職位錢途數(shù)據(jù)分析請看這里:前端招聘崗位分析C++招聘崗位分析JAVA招聘崗位分析PHP招聘崗位分析Python招聘崗位分析...

    546669204 評論0 收藏0
  • puppeteer爬蟲

    摘要:爬蟲爬蟲又稱網(wǎng)絡(luò)機器人。每天或許你都會使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內(nèi)容做索引。那我萌就來探討一下網(wǎng)絡(luò)爬蟲吧。對后關(guān)于不僅僅可以用來做爬蟲,因為可以編程,無頭瀏覽器,可以用來自動化測試等等。 @(爬蟲)[puppeteer|] 爬蟲又稱網(wǎng)絡(luò)機器人。每天或許你都會使用搜索引擎,爬蟲便是搜索引擎重要的組成部分,爬取內(nèi)容做索引。現(xiàn)如今大數(shù)據(jù),數(shù)據(jù)分析很火,那數(shù)據(jù)哪里來呢,...

    felix0913 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<