摘要:項目分析爬取智聯網站上的全國的競爭最激烈三個月內前十的崗位。模塊專為服務器設計的核心的快速,靈活和精益的實現。核心代碼發起請求獲取到的內容放到模塊遍歷是通過分析頁面結構得到的打印數據執行就會得到如下結果。
node爬蟲
什么是爬蟲呢,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。為什么選用node呢,因為我是前端,當然要用js實現。
項目分析爬取http://top.zhaopin.com 智聯網站上的全國的競爭最激烈三個月內前十的崗位。不需要定時爬取。使用request和cheerio模塊。node版本7.6.0、npm版本4.1.2
安裝npm install request cheerio -S
request 模塊是一個簡化的HTTP客戶端。
cheerio 模塊專為服務器設計的核心jQuery的快速,靈活和精益的實現。可以把爬到的內容和jQuery一樣使用。
// app.js const request = require("request"); const cheerio = require("cheerio"); // 發起請求 request("http://top.zhaopin.com", (error, response, body) => { if(error){ console.error(error); } let json = {}; // 獲取到的內容放到cheerio模塊 const $ = cheerio.load(body); // jQuery 遍歷 #hotJobTop .topList li 是通過http://top.zhaopin.com 分析頁面結構得到的 $("#hotJobTop .topList li").each(function (index) { let obj = json[index] = {}; obj.name = $(this).find(".title").text().trim(); obj.num = $(this).find(".paddingR10").text().trim(); }); // 打印數據 console.log(json); });
執行 node app.js 就會得到如下結果。
[ { name: "Java開發工程師", num: "340538人/天" }, { name: "軟件工程師", num: "220873人/天" }, { name: "銷售代表", num: "175053人/天" }, { name: "會計/會計師", num: "168225人/天" }, { name: "行政專員/助理", num: "150913人/天" }, { name: "WEB前端開發", num: "140979人/天" }, { name: "助理/秘書/文員", num: "139098人/天" }, { name: "軟件測試", num: "136399人/天" }, { name: "人力資源專員/助理", num: "123482人/天" }, { name: "用戶界面(UI)設計", num: "107505人/天" } ]
一個簡單的爬蟲就寫好了,看看前十有沒有你從事的崗位吧!
我的博客和github地址http://blog.langpz.com
https://github.com/lanpangzhi
參考https://github.com/request/request
https://github.com/cheeriojs/cheerio
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/104389.html
摘要:之前接了一個活,做的功能是從智聯招聘爬取招聘信息賺了幾百塊零花錢實現了一個,如圖雖然比較丑,但是簡潔明了,落落大方已經是我水平的天花板了具體功能說明就不了,大家都能看懂的。。。。智聯招聘鏈接網頁是這個樣子的,反爬蟲不強。 之前接了一個活,做的功能是從智聯招聘爬取招聘信息賺了幾百塊零花錢實現了一個GUI,如圖:showImg(https://segmentfault.com/img/bV...
摘要:智聯其實一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
摘要:網頁源碼解析智聯招聘信息頁面根據招聘列表里面跳轉過來的詳細招聘信息頁面。巨優信息是法國阿爾卡特朗訊公司企業通信系統全國金牌代理商,同時也是華為思科等國際知名品牌的核心合作伙伴。主頁是智聯招聘里唯一能夠讓企業自己定制的頁面了。 網頁源碼解析 - 智聯招聘信息頁面 根據招聘列表里面跳轉過來的詳細招聘信息頁面。爬蟲再根據這里進行關鍵信息提取。相比于搜索列表頁來說,這頁內容很簡單,而我們需要的...
摘要:年月日爬取,爬蟲代碼不知道是否失效文章目錄爬蟲目標具體過程源碼爬蟲目標要求搜索大數據專業,爬相關公司的招聘信息。 2021年10月7日爬取,爬蟲代碼不知道是否失效 ...
摘要:網頁源碼解析智聯招聘搜索列表一開始必須要解析智聯招聘搜索列表頁,從這里更方便實現各種深層級數據抓取。顯示不同源碼也不同,盡量選列表模式,源碼更好解析。 網頁源碼解析 - 智聯招聘搜索列表 一開始必須要解析智聯招聘搜索列表頁,從這里更方便實現各種深層級數據抓取。網頁地址是:http://sou.zhaopin.com/jobs/searchresult.ashx 搜索參數 智聯招聘的服務...
閱讀 1562·2023-04-25 15:50
閱讀 1304·2021-09-22 15:49
閱讀 2931·2021-09-22 15:06
閱讀 3569·2019-08-30 15:54
閱讀 2331·2019-08-29 11:33
閱讀 2118·2019-08-23 17:56
閱讀 2144·2019-08-23 17:06
閱讀 1293·2019-08-23 15:55