使用Node.js開發(fā)一個小爬蟲

Songlcy 發(fā)布于2019-08-22 11:12 / 2154人閱讀

摘要：前言很多程序猿在最開始學(xué)習(xí)開發(fā)的時候應(yīng)該都有一個想要自己開發(fā)一個爬蟲的想法至少我是有的。其實弄懂了爬蟲的原理，再回過頭去看，發(fā)現(xiàn)開發(fā)一個簡單的爬蟲來說還是很容易的。

前言

很多程序猿在最開始學(xué)習(xí)開發(fā)的時候應(yīng)該都有一個想要自己開發(fā)一個爬蟲的想法（至少我是有的）。所以國內(nèi)網(wǎng)絡(luò)上也是爬蟲盛行！學(xué)了node.js之后發(fā)現(xiàn)比較適合寫爬蟲，不過一直沒有動手去寫，正好這段時間比較閑，就寫個爬蟲玩下。

想著爬個什么東西呢？正好都比較喜歡看電影，那就從時光網(wǎng)爬下國內(nèi)的票房排行榜吧。

Talk is cheap. Show me the code

不bb，代碼在此

如何"食用"

</>復(fù)制代碼 
git clone https://github.com/XNAL/node-MovieSpider
cd node-MovieSpider 
npm init
node index.js

搭建環(huán)境

開發(fā)語言：node.js

發(fā)出http請求：superagent

并發(fā)控制：async

分析網(wǎng)頁內(nèi)容：cheerio

開始擼代碼 1. 代碼主體

作為一個簡單的示例，此次就不開啟node服務(wù)了，我這里就直接來個自執(zhí)行的方法。如果有需要，可以根據(jù)自己的需求擴展。

</>復(fù)制代碼 
// 啟動時直接執(zhí)行代碼 
(function spider() {
    util.fetch_data_get(reqUrl, reqParams)
        .then((result) => {
            // 根據(jù)頁面結(jié)構(gòu)獲取總的頁數(shù)，然后再分頁獲取數(shù)據(jù)
            let $ = cheerio.load(result.body.html);
            let pageTotal = $(".bocontent .pagesize a:last-child").data("page") || 0;
            console.log("電影數(shù)據(jù)總頁數(shù)：", pageTotal);
            return pageTotal;
        })
        .then((pageTotal) => {
            // 分頁獲取數(shù)據(jù)
            getMovieData(0, pageTotal);
        })
        .catch((err) => {
            console.log("獲取鏈接失敗：", err);
        })
})();

2. 發(fā)送請求

因為代碼中需要多次發(fā)送http請求，所以把http請求寫成一個公共方法會比較好。使用上面提到superagent庫來實現(xiàn)。

</>復(fù)制代碼 
// 公共方法：通過get請求獲取數(shù)據(jù)
function fetch_data_get(url, queryParams) {
    return new Promise((reslove, reject) => {
        superagent
            .get(url)
            .set(setting.header)
            .query(queryParams)
            .end((err, result) => {
                err ? reject(err) : reslove(result);
            })
    })
}

3. 分析目標(biāo)網(wǎng)站api

根據(jù)人工操作得來的apihttp://movie.mtime.com/boxoffice/?year=2017&area=china&type=MovieRankingYear&category=all&page=0&display=list×tamp=1505818638620&version=07bb781100018dd58eafc3b35d42686804c6df8d&dataType=json可以得到以下參數(shù)：

</>復(fù)制代碼 
// 根據(jù)網(wǎng)站api得到相應(yīng)的url和參數(shù)
const reqUrl = "http://movie.mtime.com/boxoffice/";
const reqParams = {
    "year": 2017,
    "area": "china",
    "type": "MovieRankingYear",
    "category": "all",
    "page": 0,
    "display": "list",
    "timestamp": 1501576013654,
    "version": "07bb781100018dd58eafc3b35d42686804c6df8d",
    "dataType": "json"
};

因為此次要獲取的是2017年內(nèi)地票房排行榜。根據(jù)分析可知：需要變動的主要是page參數(shù)，那這里就需要根據(jù)頁面返回的內(nèi)容來取得總的page。

4. 使用cheerio獲取所需參數(shù)

api返回的頁面內(nèi)容可查看：將api獲取的數(shù)據(jù)格式化后的頁面代碼。

這里需要用到cheerio來取頁碼總數(shù)的代碼，cheerio可以理解為服務(wù)器端的jQuery，用法也類似：

</>復(fù)制代碼 
// 根據(jù)頁面結(jié)構(gòu)獲取總的頁數(shù)，然后再分頁獲取數(shù)據(jù)
let $ = cheerio.load(result.body.html);
let pageTotal = $(".bocontent .pagesize a:last-child").data("page") || 0;

5. 開始分頁取目標(biāo)數(shù)據(jù)

<1> 調(diào)用上面所說的公共方法fetch_data_get獲取數(shù)據(jù)，然后取頁面內(nèi)容，圖片地址都先保存在movieImgs中，最后再統(tǒng)一下載圖片：

</>復(fù)制代碼 
// 根據(jù)頁面結(jié)構(gòu)獲取所需數(shù)據(jù)
let $ = cheerio.load(result.body.html);
$(".bocontent .boxofficelist dd").each((idx, elem) => {
    $(elem).find("div.movietopmod").each((i, el) => {
        let _this = $(el);
        let arrLeadActor = [];
        _this.find(".txtbox b p").eq(1).find("a").each((idx, ela) => {
            arrLeadActor.push($(ela).text());
        })
        movieData.push({
            rank: _this.find(".picbox i").text(),
            img: _this.find(".picbox img").attr("src").replace(//u//, ""),
            name: _this.find(".txtbox h3").text(),
            director: _this.find(".txtbox b p").eq(0).find("a").text(),
            leadActor: arrLeadActor.join(","),
            point: _this.find(".gradebox .point").text(),
            total: _this.find(".totalbox .totalnum").text()
        }),
        movieImgs.push(_this.find(".picbox img").attr("src").replace(//u//, ""));
    })
})

<2> 根據(jù)頁碼循環(huán)取數(shù)據(jù)

</>復(fù)制代碼 
if(pageIndex <= pageTotal) {
    // 設(shè)置timeout防止網(wǎng)站反爬蟲
    setTimeout(() => {
        pageIndex ++;
        getMovieData(pageIndex, pageTotal);
    }, setting.timeout);
}

<3> 全部數(shù)據(jù)取出后存儲數(shù)據(jù)，并下載圖片。

因為只是一個簡單的示例，所以此次數(shù)據(jù)只是保存到json文件中。如果需要對數(shù)據(jù)進行后續(xù)操作的話，那就最好保存到數(shù)據(jù)庫中：

</>復(fù)制代碼 
fs.writeFile(dataDir + reqParams.year + ".json", JSON.stringify(movieData), (err) => {
    if (err) {
        console.log(err);
    } else {
        console.log("數(shù)據(jù)寫入成功");
    }
});

調(diào)用下載圖片的方法：

</>復(fù)制代碼 
let folderName = imgPrefix + reqParams.year;
util.downloadImg(movieImgs, folderName);

util.js中的downloadImg方法：這里就需要用到上面所說的async，使用async是為了進行并發(fā)控制，不然極短時間發(fā)送至少幾十幾百次的請求，這種情況弄不好就被網(wǎng)站的發(fā)爬蟲程序給封了，而且大量并發(fā)也會導(dǎo)致出錯的概率更高。

</>復(fù)制代碼 
// 異步下載圖片
function downloadImg(urls, folderName) {
    async.mapLimit(urls, setting.asyncNum, (img, callback) => {
        fetch_data_get(img, {})
            .then((result) => {
                let fileName = path.basename(img);
                let folder = imgDir + folderName;
                if(!fs.existsSync(folder)) {
                    fs.mkdirSync(folder);
                }
                fs.writeFile(folder + "/" + fileName, result.body, (err) => {
                    if (err) {
                        console.log(img, "圖片寫入失敗：", err);
                    } else {
                        console.log(img, "圖片寫入成功");
                        callback(null , fileName);
                    }
                })
            })
            .catch((err) => console.log(err))
    }, (err, result) => {
        if (err) {
            console.log("圖片下載失敗：", err)
        } else {
            console.log(result);
        }
    })
}

結(jié)語

到此為止一個簡單的node.js版的小爬蟲就開發(fā)完成了。其實弄懂了爬蟲的原理，再回過頭去看，發(fā)現(xiàn)開發(fā)一個簡單的爬蟲來說還是很容易的。

最后，歡迎大家去我的github進行star和fork。

GPU云服務(wù)器云服務(wù)器如何寫一個爬蟲寫一個python爬蟲 node js Node.js

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/91965.html

發(fā)表評論

登陸后可評論

0條評論

Songlcy

男|高級講師

我要關(guān)注我要私信

TA的文章

奈學(xué)百萬業(yè)務(wù)架構(gòu)師

閱讀 1754·2021-11-25 09:43
#黑五#GreenGeeks：美國/加拿大/荷蘭虛擬主機25折優(yōu)惠，購買送1年免費域名

閱讀 1790·2021-11-24 10:41
【動態(tài)內(nèi)存管理】動態(tài)內(nèi)存分配、常見錯誤、經(jīng)典筆試題、柔性數(shù)組

閱讀 3108·2021-09-27 13:36
JS基礎(chǔ)入門篇（二十四）—DOM（上）

閱讀 816·2019-08-30 15:53
html的幾種水平垂直居中的方式（基礎(chǔ)）

閱讀 3574·2019-08-30 15:44
CSS 選擇器，一篇就夠了

閱讀 870·2019-08-30 14:03
CSS實現(xiàn)導(dǎo)航欄點擊選中

閱讀 2578·2019-08-29 16:38
下個時代的前端研發(fā)，效率還能提升。PxCook 3.0，最高效的設(shè)計研發(fā)利器

閱讀 1003·2019-08-29 13:23

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用Node.js開發(fā)一個小爬蟲

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼

</>復(fù)制代碼