Node.js實現(xiàn)簡易爬蟲

BearyChat 發(fā)布于2019-08-21 15:26 / 1486人閱讀

摘要：為什么選擇利用來寫爬蟲呢就是因為這個庫，全兼容語法，熟悉的話用起來真真是爽依賴選擇版的封裝了一個服務(wù)器和一個簡易的客戶端解決爬取網(wǎng)頁出現(xiàn)亂碼初步實現(xiàn)既然是要爬取網(wǎng)站內(nèi)容，那我們就應(yīng)該先去看看網(wǎng)站的基本構(gòu)成選取的是電影天堂作為目標(biāo)網(wǎng)站，想要

為什么選擇利用node來寫爬蟲呢？就是因為cheerio這個庫，全兼容jQuery語法，熟悉的話用起來真真是爽

依賴選擇

cheerio： Node.js 版的jQuery

http：封裝了一個HTPP服務(wù)器和一個簡易的HTTP客戶端

iconv-lite：解決爬取gb2312網(wǎng)頁出現(xiàn)亂碼

初步實現(xiàn)

既然是要爬取網(wǎng)站內(nèi)容，那我們就應(yīng)該先去看看網(wǎng)站的基本構(gòu)成
選取的是電影天堂作為目標(biāo)網(wǎng)站，想要去爬取所有最新電影的下載鏈接

分析頁面

頁面結(jié)構(gòu)如下：

我們可以看到每個電影的標(biāo)題都在一個class為ulink的a標(biāo)簽下，再往上定位，我們可以看到最外部的盒子class為co_content8

ok，可以開工了

獲取一頁電影標(biāo)題

首先引入依賴，并設(shè)定需要爬取的url

var cheerio = require("cheerio");
var http = require("http");
var iconv = require("iconv-lite");

var url = "http://www.ygdy8.net/html/gndy/dyzz/index.html";

核心代碼 index.js

http.get(url, function(sres) {
  var chunks = [];
  sres.on("data", function(chunk) {
    chunks.push(chunk);
  });
  // chunks里面存儲著網(wǎng)頁的 html 內(nèi)容，將它zhuan ma傳給 cheerio.load 之后
  // 就可以得到一個實現(xiàn)了 jQuery 接口的變量，將它命名為 `$`
  // 剩下就都是 jQuery 的內(nèi)容了
  sres.on("end", function() {
    var titles = [];
    //由于咱們發(fā)現(xiàn)此網(wǎng)頁的編碼格式為gb2312，所以需要對其進行轉(zhuǎn)碼，否則亂碼
    //依據(jù)：“”
    var html = iconv.decode(Buffer.concat(chunks), "gb2312");
    var $ = cheerio.load(html, {decodeEntities: false});
    $(".co_content8 .ulink").each(function (idx, element) {
      var $element = $(element);
      titles.push({
        title: $element.text()
      })
    })    
    console.log(titles);     
  });
});

運行node index

結(jié)果如下

成功獲取電影title，那如果我想獲取多個頁面的title呢，總不可能一個一個url去改吧。這當(dāng)然有辦法，請往下看！

獲取多頁電影標(biāo)題

我們只要將之前的代碼封裝成一個函數(shù)并遞歸執(zhí)行就完成了

核心代碼 index.js

var index = 1; //頁面數(shù)控制
var url = "http://www.ygdy8.net/html/gndy/dyzz/list_23_";
var titles = []; //用于保存title

function getTitle(url, i) {
  console.log("正在獲取第" + i + "頁的內(nèi)容"); 
  http.get(url + i + ".html", function(sres) {
    var chunks = [];
    sres.on("data", function(chunk) {
      chunks.push(chunk);
    });
    sres.on("end", function() {
      var html = iconv.decode(Buffer.concat(chunks), "gb2312");
      var $ = cheerio.load(html, {decodeEntities: false});
      $(".co_content8 .ulink").each(function (idx, element) {
        var $element = $(element);
        titles.push({
          title: $element.text()
        })
      })  
      if(i < 2) { //為了方便只爬了兩頁
        getTitle(url, ++index); //遞歸執(zhí)行，頁數(shù)+1
      } else {
        console.log(titles); 
        console.log("Title獲取完畢！");              
      }
    });
  });
}

function main() {
  console.log("開始爬取");
  getTitle(url, index);
}

main(); //運行主函數(shù)

結(jié)果如下

獲取電影下載連接

如果是人工操作，我們需要一次操作，通過點擊進入電影詳情頁才能找到下載地址
那我們通過node如何來實現(xiàn)呢

常規(guī)先來分析頁面布局

我們?nèi)绻胍獪?zhǔn)確定位到下載鏈接，需要先找到id為Zoom的div，下載鏈接就在這個div下的tr下的a標(biāo)簽內(nèi)。

那我們就再定義一個函數(shù)，用于獲取下載鏈接

getBtLink()

function getBtLink(urls, n) { //urls里面包含著所有詳情頁的地址
  console.log("正在獲取第" + n + "個url的內(nèi)容");
  http.get("http://www.ygdy8.net" + urls[n].title, function(sres) {
    var chunks = [];
    sres.on("data", function(chunk) {
      chunks.push(chunk);
    });
    sres.on("end", function() {
      var html = iconv.decode(Buffer.concat(chunks), "gb2312"); //進行轉(zhuǎn)碼
      var $ = cheerio.load(html, {decodeEntities: false});
      $("#Zoom td").children("a").each(function (idx, element) {
        var $element = $(element);
        btLink.push({
          bt: $element.attr("href")
        })
      })
      if(n < urls.length - 1) {
        getBtLink(urls, ++count); /／遞歸
      } else {
        console.log("btlink獲取完畢！");
        console.log(btLink);   
      }
    });
  });
}

再次運行 node index

就這樣我們將3個頁面內(nèi)所有電影的下載鏈接獲取完畢，是不是很簡單？

保存數(shù)據(jù)

我們講這些數(shù)據(jù)爬取出來當(dāng)然是要進行保存的啊，在這里我選用了MongoDB來對其進行保存處理

數(shù)據(jù)保存函數(shù) save()

function save() {
  var MongoClient = require("mongodb").MongoClient; //導(dǎo)入依賴
  MongoClient.connect(mongo_url, function (err, db) {
    if (err) {
      console.error(err);
      return;
    } else {
      console.log("成功連接數(shù)據(jù)庫");
      var collection = db.collection("node-reptitle");
      collection.insertMany(btLink, function (err,result) { //插入數(shù)據(jù)
        if (err) {
          console.error(err);
        } else {
          console.log("保存數(shù)據(jù)成功");
        }
      })
      db.close();
    }
  });
}

這里的操作很簡單，就沒必要上mongoose啦
再次運行 node index

這個Node.js實現(xiàn)的爬蟲就是這樣了，祝大家能爬到自己想要的數(shù)據(jù)；）

最后附上源碼地址：https://github.com/HuangXiZho...

GPU云服務(wù)器云服務(wù)器 python簡易爬蟲 js簡易留言板實現(xiàn) 網(wǎng)絡(luò)爬蟲實現(xiàn) 網(wǎng)絡(luò)爬蟲的實現(xiàn)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/88184.html

發(fā)表評論

登陸后可評論

0條評論

BearyChat

男|高級講師

我要關(guān)注我要私信

TA的文章

水資源領(lǐng)域受威脅 CISA警告注意針對水和廢水系統(tǒng)的網(wǎng)絡(luò)攻擊

閱讀 3426·2021-10-20 13:49
?基于H5+js開發(fā)一款音樂播放器

閱讀 2800·2021-09-29 09:34
vpsmalaysia：馬來西亞VPS，100M帶寬，低至$7/月，CX2機房，提供獨立服務(wù)器

閱讀 3698·2021-09-01 11:29
當(dāng)我在瀏覽器中輸入url都發(fā)生了什么

閱讀 3085·2019-08-30 11:01
《第41天：JQurey - 關(guān)燈效果》

閱讀 841·2019-08-29 17:10
postcss-lazysprite: 一種生成CSS 雪碧圖的懶惰姿勢

閱讀 881·2019-08-29 12:48
JavaScript正則進階之路——活學(xué)妙用奇淫正則表達式

閱讀 2783·2019-08-29 12:40
Web 圖片性能優(yōu)化系列一：背景與基礎(chǔ)

閱讀 1354·2019-08-29 12:30

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Node.js實現(xiàn)簡易爬蟲

相關(guān)文章

如果有人問你爬蟲抓取技術(shù)的門道，請叫他來看這篇文章

2017-07-05 前端日報

前端那些小眾而又精美的網(wǎng)站及工具

前端那些小眾而又精美的網(wǎng)站及工具

發(fā)表評論

0條評論

BearyChat

男|高級講師

TA的文章

水資源領(lǐng)域受威脅 CISA警告注意針對水和廢水系統(tǒng)的網(wǎng)絡(luò)攻擊

?基于H5+js開發(fā)一款音樂播放器

vpsmalaysia：馬來西亞VPS，100M帶寬，低至$7/月，CX2機房，提供獨立服務(wù)器

當(dāng)我在瀏覽器中輸入url都發(fā)生了什么

《第41天：JQurey - 關(guān)燈效果》

postcss-lazysprite: 一種生成CSS 雪碧圖的懶惰姿勢

JavaScript正則進階之路——活學(xué)妙用奇淫正則表達式

Web 圖片性能優(yōu)化系列一：背景與基礎(chǔ)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Node.js實現(xiàn)簡易爬蟲

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！