nodejs做的爬蟲，爬取騰訊動漫的內容

godruoyi 發布于2019-08-20 14:45 / 1113人閱讀

摘要：首先上再上一定要設置的編碼為否則會下載下來的圖片打不開最后是說明引入必須的模塊，函數接收，并在回調里處理數據。，函數里，定義數據源，這里用的是騰訊動漫，循環處理數據內容，里面的函數，即保存圖片到本地。

首先上package.json

{
  "name": "Spider",
  "version": "1.0.0",
  "description": "spider ",
  "main": "index.js",
  "dependencies": {
    "async": "^1.5.0",
    "cheerio": "^0.19.0",
    "eventproxy": "^0.3.4",
    "superagent": "^1.4.0"
  },
  "devDependencies": {},
  "scripts": {
    "test": "node index",
    "start": "node server.js"
  }
}

再上server.js

var http = require("http");
var cheerio = require("cheerio");
var fs = require("fs");
//Utility function that downloads a URL and invokes
//callback with the data.
function downloadPage(url, callback) {
    http.get(url, function(res) {
        var data = "";
        res.on("data", function(chunk) {
            data += chunk;
        });
        res.on("end", function() {
            callback(data);
        });
    }).on("error", function() {
        callback(null);
    });
}


function start() {
    var url = "http://ac.qq.com/Comic/index/type/4/page/";
    var url2 = "http://ac.qq.com/ComicView/index/id/549690/cid/1";
    var arr = [];
    for (var i = 1; i < 13; i++) {
        downloadPage(url + i, function(data) {
            if (data) {
                var $ = cheerio.load(data);
                $("div.ret-search-result > ul > li.ret-search-item").each(function(i, e) {
                    var json = {};
                    json.tags = [];
                    json.img = $(e).find("img").attr("data-original");
                    json.link = $(e).find("a.mod-cover-list-thumb").attr("href");
                    json.id = json.link.split("/").reverse()[0];
                    json.title = $(e).find("h3.ret-works-title > a").text();
                    json.author = $(e).find("p.ret-works-author").text();
                    json.popular = $(e).find("p.ret-works-tags> span > em").text();
                    json.description = $(e).find("p.ret-works-decs").text();
                    $(e).find("p.ret-works-tags>a").each(function(i, e) {
                        json.tags.push($(e).text());
                    });
                    downloadImg(json.img);
                    arr.push(json)
                    console.log("done");
                    // console.log(arr)
                    // fs.writeFileSync("./output.json", JSON.stringify(arr));
                    // });
                })
            }
        })
    }
}

function downloadImg(url) {
    console.log("string")
    http.get(url, function(res) {
        var imgData = "";
        res.setEncoding("binary"); //一定要設置response的編碼為binary否則會下載下來的圖片打不開
        res.on("data", function(chunk) {
            imgData += chunk;
        });
        res.on("end", function() {
            var d = new Date();
            fs.writeFile("./downImgs/" + Math.floor(Math.random() * 10000000) + ".jpg", imgData, "binary", function(err) {
                if (err) {
                    console.log(err);
                }
                console.log("down success");
            });
        });
    });
}
exports.start = start;

最后是index.js

var server = require("./server");

server.start();

說明

1,引入必須的模塊，http, cheerio, fs

2,downloadPage函數接收URL，并在回調里處理數據。

3，start函數里，定義url數據源，這里用的是騰訊動漫.

4，for循環處理url數據內容，里面的downloadImg函數，即保存圖片到本地。

云服務器 GPU云服務器爬蟲爬取數據 java爬蟲爬取數據 nodejs爬蟲 nodejs爬蟲代碼

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/81886.html

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
nodeJS實現基于Promise爬蟲定時發送信息到指定郵件

摘要：也就是說，我的篇文章的請求對應個實例，這些實例都請求完畢后，執行以下邏輯他的目的在于對每一個返回值這個返回值為單篇文章的內容，進行方法處理。英國人Robert Pitt曾在Github上公布了他的爬蟲腳本，導致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。亮點在于，這是個nodejs腳本，非常短，包括注釋只有71行。 ...

xuweijian 2019-08-20 15:27 評論0 收藏0
Nodejs爬蟲實戰項目之鏈家

摘要：很基礎，不喜勿噴轉載注明出處爬蟲實戰項目之鏈家效果圖思路爬蟲究竟是怎么實現的通過訪問要爬取的網站地址，獲得該頁面的文檔內容，找到我們需要保存的數據，進一步查看數據所在的元素節點，他們在某方面一定是有規律的，遵循規律，操作，保存數據。說明作為一個前端界的小學生，一直想著自己做一些項目向全棧努力。愁人的是沒有后臺，搜羅之后且學會了nodejs和express寫成本地的接口給前端頁面調用...

noONE 2019-08-22 17:10 評論0 收藏0
Nodejs爬蟲實戰項目之鏈家

摘要：很基礎，不喜勿噴轉載注明出處爬蟲實戰項目之鏈家效果圖思路爬蟲究竟是怎么實現的通過訪問要爬取的網站地址，獲得該頁面的文檔內容，找到我們需要保存的數據，進一步查看數據所在的元素節點，他們在某方面一定是有規律的，遵循規律，操作，保存數據。說明作為一個前端界的小學生，一直想著自己做一些項目向全棧努力。愁人的是沒有后臺，搜羅之后且學會了nodejs和express寫成本地的接口給前端頁面調用...

MartinDai 2019-06-26 17:39 評論0 收藏0
手把手教你寫帶登錄的NodeJS爬蟲+數據展示

摘要：可以通過傳入待刪除數組元素組成的數組進行一次性刪除。如果后臺返回的為表示登錄的已失效，需要重新執行。等所有的異步執行完畢后，再執行回調函數。回調函數的參數是每個函數返回數據組成的數組。其實在早之前，就做過立馬理財的銷售額統計，只不過是用前端js寫的，需要在首頁的console調試面板里粘貼一段代碼執行，點擊這里。主要是通過定時爬取https://www.lmlc.com/s/web/...

cpupro 2019-08-26 11:46 評論0 收藏0