摘要:在中使用核心模塊和第三方模塊實現窮人版網頁小爬蟲,以深圳市住房公積金管理中心信息公開網站為例。
????在Node中使用核心模塊http和第三方模塊cheerio實現窮人版網頁小爬蟲,以“深圳市住房公積金管理中心-信息公開”網站為例。
????目標網頁如下:
????目標網頁數據的dom結構如下:
????示例代碼如下:
var http = require("http"); var cheerio = require("cheerio"); //類似JQ的第三方模塊 var url = "http://www.szzfgjj.com/xxgk/tjxx/"; //深圳市住房公積金管理中心-信息公開 //爬取網頁數據 http.get(url, res => { var html = ""; res.on("data", data => html += data); res.on("end", () => { // console.log(html); var crawlData = filterData(html); printData(crawlData); }); }).on("error", () => { console.log("some error occured"); }); //過濾數據 function filterData(html){ var $ = cheerio.load(html); //裝載dom var crawlData = []; //存儲爬蟲數據 var lis = $(".MLlist").find("ul>li"); lis.each(function(){ var li = $(this); var obj = { title: li.attr("svalue"), addr: li.children("a").attr("href").split("/")[1], id: li.children("a").attr("id") } crawlData.push(obj); }); return crawlData; } //輸出數據 function printData(crawlData = []){ crawlData.forEach(item => { console.log(`題目:${item.title} -- 地址:${item.addr} -- 編號:${item.id}`); }); }
????終端輸出如下:
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/107398.html
摘要:概括地講,如果構造函數有返回值,且返回值是對象不能是,那么對其進行操作返回該對象,否則返回構造實例。所以在方法中,我們需要進一步判斷這個構造函數有沒有返回值,返回值是不是對象。 自從進入七月以來,我的 underscore 源碼解讀系列 更新緩慢,再這樣下去,今年更完的目標似乎要落空,趕緊寫一篇壓壓驚。 前文 跟大家簡單介紹了下 ES5 中的 bind 方法以及使用場景(沒讀過的同學建...
摘要:當前分為版本,以及版本,這兩個版本相互直接是不兼容的,但是當前世面的主流或者程序還是偏多,所以我這邊主要是版本為基礎,確切地說,是版本。下面來說說如何安裝開發環境以及開發工具一環境的安裝上安裝如果你正在使用,系統是,系統自帶了。 當前python分為2.x版本,以及3.x版本,這兩個版本相互直接是不兼容的,但是當前世面的主流web或者程序還是2.x偏多,所以我這邊主要是2.x版本為基礎...
摘要:模式定義觀察者模式定義對象間的一種一對多或一對一的依賴關系,當被觀察者狀態發生改變時,注冊的觀察者都會被通知。需要在系統中創建一個觸發鏈,對象的行為將影響對象,對象的行為將影響對象,可以使用觀察者模式創建一種鏈式觸發機制。 showImg(https://segmentfault.com/img/bV1Wkq?w=301&h=167); 模式定義 觀察者模式(observer patt...
摘要:智聯其實一共寫了兩次,有興趣的可以在源碼看看,第一版的是回調版,只能一次一頁的爬取。 寫在前面的話, .......還是不寫了,直接上效果圖。附上源碼地址 github.lonhon showImg(https://segmentfault.com/img/bVUM3F?w=714&h=543);showImg(https://segmentfault.com/img/bVUM...
閱讀 1625·2021-09-22 15:25
閱讀 1506·2021-09-07 10:06
閱讀 3183·2019-08-30 15:53
閱讀 1090·2019-08-29 13:12
閱讀 3373·2019-08-29 13:07
閱讀 725·2019-08-28 18:19
閱讀 2269·2019-08-27 10:57
閱讀 982·2019-08-26 13:29