node爬蟲抓取網(wǎng)頁(yè)的實(shí)現(xiàn)

alighters 發(fā)布于2019-08-26 10:32 / 3236人閱讀

摘要：一前言一直感覺爬蟲是個(gè)挺高端的東西大數(shù)據(jù)時(shí)代爬蟲顯得尤為重要。

一、前言

一直感覺爬蟲是個(gè)挺高端的東西大數(shù)據(jù)時(shí)代爬蟲顯得尤為重要。經(jīng)過(guò)一番探索，終于用node實(shí)現(xiàn)了這個(gè)功能，還包括對(duì)抓取內(nèi)容的解析

二、正文

1、首先搭建一個(gè)http服務(wù)，這里使用我們熟悉的koa（這個(gè)是非必須的你也可以使用純node去抓這里主要為了方便交互、看效果或者給非技術(shù)人員使用方便）
服務(wù)端 index.js 代碼

const Koa = require("koa");
const Router = require("koa-router"); // 路由
const {greenFmt, green, purple} = require("color7log"); // log工具 

const app = new Koa();
const router = new Router();

// 默認(rèn)頁(yè)面
router.get("/", async (ctx, next) => {
    ctx.response.type = "html";
    ctx.response.body = fs.createReadStream("./index.html");
});

app.use(router.routes())

app.listen(3000);
green("服務(wù)已運(yùn)行，端口：3000")

node index.js啟動(dòng)服務(wù) 即可訪問(wèn)你的頁(yè)面了當(dāng)然項(xiàng)目下要有一個(gè) index.html 內(nèi)容請(qǐng)自己解決

2、核心代碼使用node http模塊請(qǐng)求一個(gè) html頁(yè)面

依賴模塊，請(qǐng)自行安裝

const cheerio = require("cheerio");
const zlib = require("zlib");
const iconv = require("iconv-lite");

var http = require("http") // 引入模塊

var url = "http://kaijiang.500.com/shtml/ssq/03001.shtml"

// 獲取頁(yè)面源碼，調(diào)用方法進(jìn)行解析及輸出
http.get(url, function(res) {
    var html = ""
    var arr = [];
    var chunks;
    res.on("data", function(data) {
        arr.push(data);
    })

    res.on("end", function() {
        chunks = Buffer.concat(arr);
        chunks = zlib.unzipSync(chunks) // 因?yàn)轫?yè)面時(shí)gzip 所以要解壓 如果頁(yè)面時(shí)普通文本 不需要這個(gè)
        var body = iconv.decode(chunks, "gbk");  // 轉(zhuǎn)化為可見字符

        var cheerio = require("cheerio"), // 一個(gè)用法類似jq的庫(kù) node后端使用 很方便的處理各種html模板
        $ = cheerio.load(body); // 初始化dom對(duì)象
        let content = $(".iSelectList a")
        let params = []
        for (let i = 0; i < content.length; i++) {
            params.push($(content[i]).html()) // 獲取每一期的編碼 方便以后遍歷使用
        }
        let nums = $(".ball_box01 li")
        for (let i = 0; i < nums.length; i++) {
            green($(nums[i]).html()) // 這里實(shí)現(xiàn)了 抓取彩票的中獎(jiǎng)號(hào)碼
        }
        
        // 把各期的編碼 寫入到文件 方便使用
        fs.writeFile("./data.txt", params.join(","), function(){
            console.log("完成")
        });
    })
}).on("error", function() {
    console.log("獲取數(shù)據(jù)出錯(cuò)！")
})

看頁(yè)面是不是gzip的方法如下

完整可運(yùn)行代碼地址 node爬蟲

云服務(wù)器 GPU云服務(wù)器爬蟲抓取網(wǎng)頁(yè) 網(wǎng)頁(yè)爬蟲抓取數(shù)據(jù) 爬蟲抓取網(wǎng)頁(yè)數(shù)據(jù) js爬蟲抓取網(wǎng)頁(yè)數(shù)據(jù)過(guò)濾

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/106337.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

alighters

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

鴻蒙輕內(nèi)核虛擬內(nèi)存基礎(chǔ)知識(shí)：虛擬內(nèi)存進(jìn)程空間編號(hào)

閱讀 3981·2021-11-22 15:31
半月灣HmbCloud：美國(guó)洛杉磯三網(wǎng)CN2 GIA VPS;1Gbps帶寬,七折年付$69.99

閱讀 2518·2021-11-18 13:20
基于Tableau探索分析世界銀行提供的關(guān)于科學(xué)技術(shù)的數(shù)據(jù)

閱讀 3098·2021-11-15 11:37
虛擬主機(jī)32G有多少內(nèi)存-電腦有32G內(nèi)存，虛擬內(nèi)存應(yīng)該設(shè)為多大？

閱讀 6960·2021-09-22 15:59
Epic v. Apple案審判結(jié)果：蘋果必須允許其他形式的應(yīng)用內(nèi)購(gòu)買

閱讀 736·2021-09-13 10:27
從自考大專到出走騰訊，我的經(jīng)歷值得每個(gè)測(cè)試人借鑒

閱讀 3767·2021-09-09 09:33
sass的基本使用

閱讀 1435·2019-08-30 15:53
前端每日實(shí)戰(zhàn)：43# 視頻演示如何用純 CSS 繪制一個(gè)充滿動(dòng)感的 Vue logo

閱讀 2562·2019-08-29 15:37

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

node爬蟲抓取網(wǎng)頁(yè)的實(shí)現(xiàn)

相關(guān)文章

**分分鐘教你用node.js寫個(gè)爬蟲**

Python爬蟲基礎(chǔ)

如果有人問(wèn)你爬蟲抓取技術(shù)的門道，請(qǐng)叫他來(lái)看這篇文章

**手把手教你寫帶登錄的NodeJS爬蟲+數(shù)據(jù)展示**

Nodejs爬蟲--抓取豆瓣電影網(wǎng)頁(yè)數(shù)據(jù)（下）

發(fā)表評(píng)論

0條評(píng)論

alighters

男|高級(jí)講師

TA的文章

鴻蒙輕內(nèi)核虛擬內(nèi)存基礎(chǔ)知識(shí)：虛擬內(nèi)存進(jìn)程空間編號(hào)

半月灣HmbCloud：美國(guó)洛杉磯三網(wǎng)CN2 GIA VPS;1Gbps帶寬,七折年付$69.99

基于Tableau探索分析世界銀行提供的關(guān)于科學(xué)技術(shù)的數(shù)據(jù)

虛擬主機(jī)32G有多少內(nèi)存-電腦有32G內(nèi)存，虛擬內(nèi)存應(yīng)該設(shè)為多大？

Epic v. Apple案審判結(jié)果：蘋果必須允許其他形式的應(yīng)用內(nèi)購(gòu)買

從自考大專到出走騰訊，我的經(jīng)歷值得每個(gè)測(cè)試人借鑒

sass的基本使用

前端每日實(shí)戰(zhàn)：43# 視頻演示如何用純 CSS 繪制一個(gè)充滿動(dòng)感的 Vue logo

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

node爬蟲 抓取網(wǎng)頁(yè)的實(shí)現(xiàn)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

node爬蟲抓取網(wǎng)頁(yè)的實(shí)現(xiàn)