一個簡單拉鉤網(wǎng)python爬蟲

xumenger 發(fā)布于2019-07-25 11:32 / 3436人閱讀

摘要：如果想這樣解析頁面獲取數(shù)據(jù)有以下幾個問題職位列表最多只有頁職位關(guān)鍵信息獲取不全比如一個職位的地點應(yīng)該屬于市區(qū)商區(qū)樓，這種信息只靠解析頁面是獲取不全的。

前期準備

Don"t be evil！

主要就是分析需要抓取的頁面，或許會有意外驚喜，直接找到獲取數(shù)據(jù)的接口。

首選打開拉鉤網(wǎng)首頁，發(fā)現(xiàn)一個職位至少有一個一級分類、二級分類和一個標簽。比如需要點擊查找Java相關(guān)的職位，需要找到技術(shù)、后端開發(fā)，然后點擊Java，才能獲取Java相關(guān)的職位列表。

職位列表就可以得到很多的關(guān)于職位的信息了，如職位名稱、公司名稱、公司logo、所屬行政區(qū)、商區(qū)等信息，但是需要提取這些信息的時候，xpath會讓人寫的很頭疼。

如果想這樣解析頁面獲取數(shù)據(jù)有以下幾個問題：

職位列表最多只有30頁

職位關(guān)鍵信息獲取不全

比如一個職位的地點應(yīng)該屬于XX市XX區(qū)XX商區(qū)XX樓，這種信息只靠解析頁面是獲取不全的。不過當(dāng)點擊城市的時候，查看發(fā)送的網(wǎng)絡(luò)請求，可以發(fā)現(xiàn)一個可喜的接口，這個接口將會返回一個職位列表的json數(shù)據(jù)。

但是因為為了防止爬蟲調(diào)用這個接口，使用接口的時候必須要帶上cookie。訪問首頁的時候，會獲取部分cookie值，但是唯獨沒有SEARCH_ID這個值。

但是這個cookie不是平白無辜的產(chǎn)生的，想想調(diào)用這個接口的頁面入口，觀察response的header，會發(fā)現(xiàn)有Set-Cookie:SEARCH_ID=7587e152a3b14eec8bb0f29e774e4094; Version=1; Max-Age=86400; Expires=Sun, 26-Feb-2017 17:16:05 GMT; Path=/。

這樣前期的準備工作就完成了，可以開始編碼了。

開始編碼

通過前期分析，可以發(fā)現(xiàn)需要做這么幾項工作：

訪問首頁和職位過濾頁面獲取cookie

帶上cookie調(diào)用接口

具體的流程：

訪問首頁，獲取所有職位的標簽

按城市調(diào)用接口，同時獲取所有cookie

保存數(shù)據(jù)

所以需要一些工具。

動態(tài)加載頁面和獲取cookie：

Selenium with Python

PhantomJS

帶上cookie調(diào)用接口：

Requests: HTTP for Humans

源碼

結(jié)果

抓取的總量（已經(jīng)將數(shù)據(jù)保存在mongodb中了）：

云服務(wù)器 GPU云服務(wù)器簡單python爬蟲 python爬蟲簡單 python簡單爬蟲簡單python爬蟲程序

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/38454.html

發(fā)表評論

登陸后可評論

0條評論

xumenger

男|高級講師

我要關(guān)注我要私信

TA的文章

微軟云服務(wù)器怎么樣?微軟Azure與阿里云的比較?

閱讀 3977·2021-11-18 13:22
斷網(wǎng)支付開閘，知位停車發(fā)布多項物聯(lián)網(wǎng)停車新技術(shù)

閱讀 1813·2021-11-17 09:33
如何在EXCEL中練習(xí)VBA？

閱讀 2877·2021-09-26 09:46
pacificrack，美國洛杉磯VPS促銷，5T流量，3個IPv4，60$/年，2核/8G內(nèi)存/

閱讀 1209·2021-08-21 14:11
webpack+vue+koa+mongoDB,從零開始搭建一個網(wǎng)站

閱讀 2884·2019-08-30 15:53
css block多列同高

閱讀 2707·2019-08-30 15:52
13個幫你提高開發(fā)效率的現(xiàn)代CSS框架

閱讀 1885·2019-08-30 10:52
JS基礎(chǔ)入門篇（十四）—運動

閱讀 1517·2019-08-29 15:30

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

一個簡單拉鉤網(wǎng)python爬蟲

相關(guān)文章

爬蟲的一些知識羅列

Python爬蟲學(xué)習(xí)：微信、知乎、新浪等主流網(wǎng)站的模擬登陸爬取方法

cockroach 爬蟲：又一個 java 爬蟲實現(xiàn)

node.js 爬取招聘信息分析各職業(yè)錢途（爬蟲+動態(tài)IP代理+數(shù)據(jù)可視化分析）

puppeteer爬蟲

發(fā)表評論

0條評論

xumenger

男|高級講師

TA的文章

微軟云服務(wù)器怎么樣?微軟Azure與阿里云的比較?

斷網(wǎng)支付開閘，知位停車發(fā)布多項物聯(lián)網(wǎng)停車新技術(shù)

如何在EXCEL中練習(xí)VBA？

pacificrack，美國洛杉磯VPS促銷，5T流量，3個IPv4，60$/年，2核/8G內(nèi)存/

webpack+vue+koa+mongoDB,從零開始搭建一個網(wǎng)站

css block多列同高

13個幫你提高開發(fā)效率的現(xiàn)代CSS框架

JS基礎(chǔ)入門篇（十四）—運動

最新活動