Node.js爬取科技新聞網(wǎng)站cnBeta（附前端及服務(wù)端源碼）

李濤發(fā)布于2019-06-26 17:55 / 1588人閱讀

摘要：前言一直很喜歡看科技新聞，多年來(lái)一直混跡于，以前西貝的評(píng)論區(qū)是匿名的，所以評(píng)論區(qū)非常活躍，各種噴子和段子，不過(guò)也確實(shí)很歡樂(lè)，可以說(shuō)那是西貝人氣最旺的時(shí)候。

前言

一直很喜歡看科技新聞，多年來(lái)一直混跡于cnBeta，以前西貝的評(píng)論區(qū)是匿名的，所以評(píng)論區(qū)非常活躍，各種噴子和段子，不過(guò)也確實(shí)很歡樂(lè)，可以說(shuō)那是西貝人氣最旺的時(shí)候。然而自從去年網(wǎng)信辦出臺(tái)了《互聯(lián)網(wǎng)跟帖評(píng)論服務(wù)管理規(guī)定》，要求只有實(shí)名認(rèn)證的用戶，才能進(jìn)行留言、評(píng)論之后，往日的活躍的的評(píng)論區(qū)瞬間淪陷，人氣大跌。其實(shí)說(shuō)到底，還是西貝沒(méi)有跟上移動(dòng)互聯(lián)網(wǎng)的潮流，至今還止步于PC互聯(lián)網(wǎng)時(shí)代，網(wǎng)頁(yè)廣告太多，而移動(dòng)應(yīng)用質(zhì)量堪憂，體驗(yàn)極差，雖然有不少第三方的應(yīng)用，但由于沒(méi)有官方的支持，體驗(yàn)上還是不夠好，例如如果官方發(fā)布一些改版，第三方的應(yīng)用基本都會(huì)掛掉。

所以為了方便平時(shí)閱讀cnBeta的新聞，就打算通過(guò)爬蟲(chóng)把cnBeta的新聞爬下來(lái)，自建一個(gè)m站，這樣體驗(yàn)可控，并且沒(méi)有廣告(｀?′)Ψ。其實(shí)項(xiàng)目很早就完成了，只是現(xiàn)在才有空（閑情）寫(xiě)一篇分享出來(lái)。

概述

本項(xiàng)目爬蟲(chóng)及服務(wù)端github地址：https://github.com/hudingyu/c...

前端github地址：https://github.com/hudingyu/c...

技術(shù)細(xì)節(jié)

使用 async await 做異步邏輯的處理。

使用 async庫(kù) 來(lái)做循環(huán)遍歷，以及并發(fā)請(qǐng)求操作。

使用 log4js 來(lái)做日志處理

使用 cheerio 來(lái)做新聞詳情頁(yè)的分析抓取。

使用 mongoose 來(lái)連接mongoDB 做數(shù)據(jù)的保存以及操作。

目錄結(jié)構(gòu)

目錄結(jié)構(gòu)

├── bin              // 入口
│?  ├── article-list.js      // 抓取新聞列表邏輯
│?  ├── content.js          // 抓取新聞內(nèi)容邏輯
│?  ├── server.js      // 服務(wù)端程序入口
│?  └── spider.js      // 爬蟲(chóng)程序入口
├── config             // 配置文件
├── dbhelper           // 數(shù)據(jù)庫(kù)操作方法目錄
├── middleware      // koa2 中間件
├── model          // mongoDB 集合操作實(shí)例
├── router         // koa2 路由文件
├── utils         // 工具函數(shù)
├── package.json

方案分析

首先看爬蟲(chóng)程序入口文件，整體邏輯其實(shí)很簡(jiǎn)單，先抓取新聞列表，存入MongoDB數(shù)據(jù)庫(kù)，每十分鐘抓取一次。新聞列表抓取之后，在數(shù)據(jù)庫(kù)查詢列表中沒(méi)有新聞內(nèi)容的新聞，開(kāi)始抓取新聞詳情，然后更新到數(shù)據(jù)庫(kù)。

const articleListInit = require("./article-list");
const articleContentInit = require("./content");
const logger = require("../config/log");

const start = async() => {
    let articleListRes = await articleListInit();
    if (!articleListRes) {
        logger.warn("news list update failed...");
    } else {
        logger.info("news list update succeed！");
    }

    let articleContentRes = await articleContentInit();
    if (!articleContentRes) {
        logger.warn("article content grab error...");
    } else {
        logger.info("article content grab succeed！");
    }
};

if (typeof articleListInit === "function") {
    start();
}
setInterval(start, 600000);

接著看抓取新聞列表的邏輯，因?yàn)榭梢垣@取到新聞列表的Ajax接口，所以直接調(diào)用接口獲取列表信息。但是也有個(gè)問(wèn)題，cnBeta新聞列表的縮略圖以及文章里的的圖片是有防盜鏈的，所以你在自己的網(wǎng)站是沒(méi)法直接使用它的圖片的，所以我是直接把cnBeta的圖片文件爬下來(lái)存到自己的服務(wù)器上。

/**
 * 初始化方法 抓取文章列表
 * @returns {Promise.<*>}
 */
const articleListInit = async() => {
    logger.info("grabbing article list starts...");
    const pageUrlList = getPageUrlList(listBaseUrl, totalPage);
    if (!pageUrlList) {
        return;
    }
    let res = await getArticleList(pageUrlList);
    return res;
}

/**
 * 利用分頁(yè)接口獲取文章列表
 * @param pageUrlList
 * @returns {Promise}
 */
const getArticleList = (pageUrlList) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(pageUrlList, 1, (pageUrl, callback) => {
            getCurPage(pageUrl, callback);
        }, (err, result) => {
            if (err) {
                logger.error("get article list error...");
                logger.error(err);
                reject(false);
                return;
            }
            let articleList = _.flatten(result);
            downloadThumbAndSave(articleList, resolve);
        })
    })
};

/**
 * 獲取當(dāng)前頁(yè)面的文章列表
 * @param pageUrl
 * @param callback
 * @returns {Promise.}
 */
const getCurPage = async(pageUrl, callback) => {
    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    request(pageUrl, (err, response, body) => {
        if (err) {
            logger.info("current url went wrong，url address:" + pageUrl);
            callback(null, null);
            return;
        } else {
            let responseObj = JSON.parse(body);
            if (responseObj.result && responseObj.result.list) {
                let newsList = parseObject(articleModel, responseObj.result.list, {
                    pubTime: "inputtime",
                    author: "aid",
                    commentCount: "comments",
                });
                callback(null, newsList);
                return;
            }
            console.log("出錯(cuò)了");
            callback(null, null);
        }
    });
};

const downloadThumbAndSave = (list, resolve) => {
    const host = "https://static.cnbetacdn.com";
    const basepath = "./public/data";
    if (list.indexOf(null) > -1) {
        resolve(false);
    } else {
        try {
            async.eachSeries(list, (item, callback) => {
                let thumb_url = item.thumb.replace(host, "");
                item.thumb = thumb_url;
                if (!fs.exists(thumb_url)) {
                    mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf("/")), () => {
                        request
                            .get({
                                url: host + thumb_url,
                            })
                            .pipe(fs.createWriteStream(path.join(basepath, thumb_url)))
                            .on("error", (err) => {
                                console.log("pipe error", err);
                            });
                        callback(null, null);
                    });
                }
            }, (err, result) => {
                if (!err) {
                    saveDB(list, resolve);
                }
            });
        }
        catch(err) {
            console.log(err);
        }
    }
};

/**
 * 將文章列表存入數(shù)據(jù)庫(kù)
 * @param result
 * @param callback
 * @returns {Promise.}
 */
const saveDB = async(result, callback) => {
    //console.log(result);
    let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){
        logger.error("data insert falied");
    });
    if (!flag) {
        logger.error("news list save failed");
    } else {
        logger.info("list saved！total：" + result.length);
    }
    if (typeof callback === "function") {
        callback(true);
    }
};

再來(lái)看抓取新聞內(nèi)容的邏輯，這里是直接根據(jù)新聞的sid得到新聞內(nèi)容頁(yè)的html，然后利用cheerio庫(kù)分析獲取我們需要的新聞內(nèi)容。當(dāng)然這里也是要把文章中的圖片爬下來(lái)存入服務(wù)器，并且把存入數(shù)據(jù)庫(kù)的新聞內(nèi)容中圖片鏈接替換成自己服務(wù)器中的URL。

/**
 * 抓取正文程序入口
 * @returns {Promise.<*>}
 */
const articleContentInit = async() => {
    logger.info("grabbing article contents starts...");
    let uncachedArticleSidList = await getUncachedArticleList(articleDbModel);
    // console.log("未緩存的文章："+ uncachedArticleSidList.join(","));
    const res = await batchCrawlArticleContent(uncachedArticleSidList);
    if (!res) {
        logger.error("grabbing article contents went wrong...");
    }
    return res;
};

/**
 * 查詢新聞列表獲取sid列表
 * @param Model
 * @returns {Promise.}
 */
const getUncachedArticleList = async(Model) => {
    const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){
        logger.error(err);
    });
    return selectedArticleList.map(item => item.sid);
    // return selectedArticleList.map(item => item._doc.sid);
};

/**
 * 批量抓取新聞詳情內(nèi)容
 * @param list
 * @returns {Promise}
 */
const batchCrawlArticleContent = (list) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(list, 3, (sid, callback) => {
            getArticleContent(sid, callback);
        }, (err, result) => {
            if (err) {
                logger.error(err);
                reject(false);
                return;
            }
            resolve(true);
        });
    });
};

/**
 * 抓取單篇文章內(nèi)容
 * @param sid
 * @param callback
 * @returns {Promise.}
 */
const getArticleContent = async(sid, callback) => {
    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    let url = contentBaseUrl + sid + ".htm";
    request(url, (err, response, body) => {
        if (err) {
            logger.error("grabbing article content went wrong，article url:" + url);
            callback(null, null);
            return;
        }
        const $ = cheerio.load(body, {
            decodeEntities: false
        });
        const serverAssetPath = `${serverIp}:${serverPort}/data`;
        let domainReg = new RegExp("https://static.cnbetacdn.com","g");
        let article = {
            sid,
            source: $(".article-byline span a").html() || $(".article-byline span").html(),
            summary: $(".article-summ p").html(),
            content: $(".articleCont").html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath),
        };
        saveContentToDB(article);
        let imgList = [];
        $(".articleCont img").each((index, dom) => {
            imgList.push(dom.attribs.src);
        });
        downloadImgs(imgList);
        callback(null, null);
    });
};

/**
 * 下載圖片
 * @param list
 */
const downloadImgs = (list) => {
    const host = "https://static.cnbetacdn.com";
    const basepath = "./public/data";
    if (!list.length) {
        return;
    }
    try {
        async.eachSeries(list, (item, callback) => {
            let num = Math.random() * 500 + 500;
            sleep(num);
            if (item.indexOf(host) === -1) return;
            let thumb_url = item.replace(host, "");
            item.thumb = thumb_url;
            if (!fs.exists(thumb_url)) {
                mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf("/")), () => {
                    request
                        .get({
                            url: host + thumb_url,
                        })
                        .pipe(fs.createWriteStream(path.join(basepath, thumb_url)))
                        .on("error", (err) => {
                            console.log("pipe error", err);
                        });
                    callback(null, null);
                });
            }
        });
    }
    catch(err) {
        console.log(err);
    }
};
/**
 * 保存到文章內(nèi)容到數(shù)據(jù)庫(kù)
 * @param article
 */
const saveContentToDB = (item) => {
    let flag = dbHelper.updateCollection(articleDbModel, item);
    if (flag) {
        logger.info("grabbing article content succeeded：" + item.sid);
    }
};

爬蟲(chóng)部分差不多就是這樣，還有一點(diǎn)就自己服務(wù)器存儲(chǔ)的爬取的圖片每天都會(huì)有上百?gòu)垼瑫r(shí)間一長(zhǎng)，圖片占用的存儲(chǔ)空間就會(huì)特別大，所以需要定時(shí)清理一下，有興趣的可以看看項(xiàng)目里面的clear-expire.js文件。

總結(jié)

其實(shí)，雖然這個(gè)項(xiàng)目整體并不復(fù)雜，但是一套前后端系統(tǒng)搭建起來(lái)的過(guò)程中，自己的收獲還是挺不少的，很多問(wèn)題的解決需要自己去實(shí)踐和思考的，對(duì)于性能優(yōu)化考量也是一個(gè)重要的方面。

下面截圖就是我最終完成得m站，界面很清爽，體驗(yàn)上確實(shí)比cnBeta官網(wǎng)要好很多。這樣是平時(shí)看科技新聞也確實(shí)方便很多。

以上

GPU云服務(wù)器云服務(wù)器新聞網(wǎng)站源碼二次淺封裝實(shí)踐【附源碼】網(wǎng)站前端和后端哪個(gè)好學(xué) 這篇文章手把手帶你閱讀Netty源碼【附

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/19448.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

李濤

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

SSL證書(shū)是一個(gè)域名一個(gè)證書(shū)嗎？多個(gè)域名能用一張SSL證書(shū)嗎？

閱讀 1180·2021-11-22 13:54
大連虛擬主機(jī)怎么選擇-如何選擇虛擬主機(jī)？

閱讀 2428·2021-09-22 15:36
CSS 入門(mén)

閱讀 2735·2019-08-30 15:54
微信公眾號(hào)開(kāi)發(fā)之坑（一）

閱讀 802·2019-08-30 15:53
HTML、CSS基礎(chǔ) {未完待續(xù)}

閱讀 3168·2019-08-30 15:53
前端每日實(shí)戰(zhàn)：19# 視頻演示如何用純 CSS 創(chuàng)作一種有削鐵如泥感覺(jué)的菜單導(dǎo)航特效

閱讀 515·2019-08-29 15:21
常用瀏覽器私有屬性小記

閱讀 2862·2019-08-28 18:28
重新認(rèn)識(shí)caniuse

閱讀 3004·2019-08-26 13:37

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Node.js爬取科技新聞網(wǎng)站cnBeta（附前端及服務(wù)端源碼）

相關(guān)文章