摘要:前言一直很喜歡看科技新聞,多年來(lái)一直混跡于,以前西貝的評(píng)論區(qū)是匿名的,所以評(píng)論區(qū)非常活躍,各種噴子和段子,不過(guò)也確實(shí)很歡樂(lè),可以說(shuō)那是西貝人氣最旺的時(shí)候。
前言
一直很喜歡看科技新聞,多年來(lái)一直混跡于cnBeta,以前西貝的評(píng)論區(qū)是匿名的,所以評(píng)論區(qū)非常活躍,各種噴子和段子,不過(guò)也確實(shí)很歡樂(lè),可以說(shuō)那是西貝人氣最旺的時(shí)候。然而自從去年網(wǎng)信辦出臺(tái)了《互聯(lián)網(wǎng)跟帖評(píng)論服務(wù)管理規(guī)定》,要求只有實(shí)名認(rèn)證的用戶,才能進(jìn)行留言、評(píng)論之后,往日的活躍的的評(píng)論區(qū)瞬間淪陷,人氣大跌。其實(shí)說(shuō)到底,還是西貝沒(méi)有跟上移動(dòng)互聯(lián)網(wǎng)的潮流,至今還止步于PC互聯(lián)網(wǎng)時(shí)代,網(wǎng)頁(yè)廣告太多,而移動(dòng)應(yīng)用質(zhì)量堪憂,體驗(yàn)極差,雖然有不少第三方的應(yīng)用,但由于沒(méi)有官方的支持,體驗(yàn)上還是不夠好,例如如果官方發(fā)布一些改版,第三方的應(yīng)用基本都會(huì)掛掉。
所以為了方便平時(shí)閱讀cnBeta的新聞,就打算通過(guò)爬蟲(chóng)把cnBeta的新聞爬下來(lái),自建一個(gè)m站,這樣體驗(yàn)可控,并且沒(méi)有廣告(`?′)Ψ。其實(shí)項(xiàng)目很早就完成了,只是現(xiàn)在才有空(閑情)寫(xiě)一篇分享出來(lái)。
概述本項(xiàng)目爬蟲(chóng)及服務(wù)端github地址:https://github.com/hudingyu/c...
前端github地址:https://github.com/hudingyu/c...
技術(shù)細(xì)節(jié)使用 async await 做異步邏輯的處理。
使用 async庫(kù) 來(lái)做循環(huán)遍歷,以及并發(fā)請(qǐng)求操作。
使用 log4js 來(lái)做日志處理
使用 cheerio 來(lái)做新聞詳情頁(yè)的分析抓取。
使用 mongoose 來(lái)連接mongoDB 做數(shù)據(jù)的保存以及操作。
目錄結(jié)構(gòu)目錄結(jié)構(gòu)
├── bin // 入口 │? ├── article-list.js // 抓取新聞列表邏輯 │? ├── content.js // 抓取新聞內(nèi)容邏輯 │? ├── server.js // 服務(wù)端程序入口 │? └── spider.js // 爬蟲(chóng)程序入口 ├── config // 配置文件 ├── dbhelper // 數(shù)據(jù)庫(kù)操作方法目錄 ├── middleware // koa2 中間件 ├── model // mongoDB 集合操作實(shí)例 ├── router // koa2 路由文件 ├── utils // 工具函數(shù) ├── package.json方案分析
首先看爬蟲(chóng)程序入口文件,整體邏輯其實(shí)很簡(jiǎn)單,先抓取新聞列表,存入MongoDB數(shù)據(jù)庫(kù),每十分鐘抓取一次。新聞列表抓取之后,在數(shù)據(jù)庫(kù)查詢列表中沒(méi)有新聞內(nèi)容的新聞,開(kāi)始抓取新聞詳情,然后更新到數(shù)據(jù)庫(kù)。
const articleListInit = require("./article-list"); const articleContentInit = require("./content"); const logger = require("../config/log"); const start = async() => { let articleListRes = await articleListInit(); if (!articleListRes) { logger.warn("news list update failed..."); } else { logger.info("news list update succeed!"); } let articleContentRes = await articleContentInit(); if (!articleContentRes) { logger.warn("article content grab error..."); } else { logger.info("article content grab succeed!"); } }; if (typeof articleListInit === "function") { start(); } setInterval(start, 600000);
接著看抓取新聞列表的邏輯,因?yàn)榭梢垣@取到新聞列表的Ajax接口,所以直接調(diào)用接口獲取列表信息。但是也有個(gè)問(wèn)題,cnBeta新聞列表的縮略圖以及文章里的的圖片是有防盜鏈的,所以你在自己的網(wǎng)站是沒(méi)法直接使用它的圖片的,所以我是直接把cnBeta的圖片文件爬下來(lái)存到自己的服務(wù)器上。
/** * 初始化方法 抓取文章列表 * @returns {Promise.<*>} */ const articleListInit = async() => { logger.info("grabbing article list starts..."); const pageUrlList = getPageUrlList(listBaseUrl, totalPage); if (!pageUrlList) { return; } let res = await getArticleList(pageUrlList); return res; } /** * 利用分頁(yè)接口獲取文章列表 * @param pageUrlList * @returns {Promise} */ const getArticleList = (pageUrlList) => { return new Promise((resolve, reject) => { async.mapLimit(pageUrlList, 1, (pageUrl, callback) => { getCurPage(pageUrl, callback); }, (err, result) => { if (err) { logger.error("get article list error..."); logger.error(err); reject(false); return; } let articleList = _.flatten(result); downloadThumbAndSave(articleList, resolve); }) }) }; /** * 獲取當(dāng)前頁(yè)面的文章列表 * @param pageUrl * @param callback * @returns {Promise.} */ const getCurPage = async(pageUrl, callback) => { let num = Math.random() * 1000 + 1000; await sleep(num); request(pageUrl, (err, response, body) => { if (err) { logger.info("current url went wrong,url address:" + pageUrl); callback(null, null); return; } else { let responseObj = JSON.parse(body); if (responseObj.result && responseObj.result.list) { let newsList = parseObject(articleModel, responseObj.result.list, { pubTime: "inputtime", author: "aid", commentCount: "comments", }); callback(null, newsList); return; } console.log("出錯(cuò)了"); callback(null, null); } }); }; const downloadThumbAndSave = (list, resolve) => { const host = "https://static.cnbetacdn.com"; const basepath = "./public/data"; if (list.indexOf(null) > -1) { resolve(false); } else { try { async.eachSeries(list, (item, callback) => { let thumb_url = item.thumb.replace(host, ""); item.thumb = thumb_url; if (!fs.exists(thumb_url)) { mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf("/")), () => { request .get({ url: host + thumb_url, }) .pipe(fs.createWriteStream(path.join(basepath, thumb_url))) .on("error", (err) => { console.log("pipe error", err); }); callback(null, null); }); } }, (err, result) => { if (!err) { saveDB(list, resolve); } }); } catch(err) { console.log(err); } } }; /** * 將文章列表存入數(shù)據(jù)庫(kù) * @param result * @param callback * @returns {Promise. } */ const saveDB = async(result, callback) => { //console.log(result); let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){ logger.error("data insert falied"); }); if (!flag) { logger.error("news list save failed"); } else { logger.info("list saved!total:" + result.length); } if (typeof callback === "function") { callback(true); } };
再來(lái)看抓取新聞內(nèi)容的邏輯,這里是直接根據(jù)新聞的sid得到新聞內(nèi)容頁(yè)的html,然后利用cheerio庫(kù)分析獲取我們需要的新聞內(nèi)容。當(dāng)然這里也是要把文章中的圖片爬下來(lái)存入服務(wù)器,并且把存入數(shù)據(jù)庫(kù)的新聞內(nèi)容中圖片鏈接替換成自己服務(wù)器中的URL。
/** * 抓取正文程序入口 * @returns {Promise.<*>} */ const articleContentInit = async() => { logger.info("grabbing article contents starts..."); let uncachedArticleSidList = await getUncachedArticleList(articleDbModel); // console.log("未緩存的文章:"+ uncachedArticleSidList.join(",")); const res = await batchCrawlArticleContent(uncachedArticleSidList); if (!res) { logger.error("grabbing article contents went wrong..."); } return res; }; /** * 查詢新聞列表獲取sid列表 * @param Model * @returns {Promise.} */ const getUncachedArticleList = async(Model) => { const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){ logger.error(err); }); return selectedArticleList.map(item => item.sid); // return selectedArticleList.map(item => item._doc.sid); }; /** * 批量抓取新聞詳情內(nèi)容 * @param list * @returns {Promise} */ const batchCrawlArticleContent = (list) => { return new Promise((resolve, reject) => { async.mapLimit(list, 3, (sid, callback) => { getArticleContent(sid, callback); }, (err, result) => { if (err) { logger.error(err); reject(false); return; } resolve(true); }); }); }; /** * 抓取單篇文章內(nèi)容 * @param sid * @param callback * @returns {Promise. } */ const getArticleContent = async(sid, callback) => { let num = Math.random() * 1000 + 1000; await sleep(num); let url = contentBaseUrl + sid + ".htm"; request(url, (err, response, body) => { if (err) { logger.error("grabbing article content went wrong,article url:" + url); callback(null, null); return; } const $ = cheerio.load(body, { decodeEntities: false }); const serverAssetPath = `${serverIp}:${serverPort}/data`; let domainReg = new RegExp("https://static.cnbetacdn.com","g"); let article = { sid, source: $(".article-byline span a").html() || $(".article-byline span").html(), summary: $(".article-summ p").html(), content: $(".articleCont").html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath), }; saveContentToDB(article); let imgList = []; $(".articleCont img").each((index, dom) => { imgList.push(dom.attribs.src); }); downloadImgs(imgList); callback(null, null); }); }; /** * 下載圖片 * @param list */ const downloadImgs = (list) => { const host = "https://static.cnbetacdn.com"; const basepath = "./public/data"; if (!list.length) { return; } try { async.eachSeries(list, (item, callback) => { let num = Math.random() * 500 + 500; sleep(num); if (item.indexOf(host) === -1) return; let thumb_url = item.replace(host, ""); item.thumb = thumb_url; if (!fs.exists(thumb_url)) { mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf("/")), () => { request .get({ url: host + thumb_url, }) .pipe(fs.createWriteStream(path.join(basepath, thumb_url))) .on("error", (err) => { console.log("pipe error", err); }); callback(null, null); }); } }); } catch(err) { console.log(err); } }; /** * 保存到文章內(nèi)容到數(shù)據(jù)庫(kù) * @param article */ const saveContentToDB = (item) => { let flag = dbHelper.updateCollection(articleDbModel, item); if (flag) { logger.info("grabbing article content succeeded:" + item.sid); } };
爬蟲(chóng)部分差不多就是這樣,還有一點(diǎn)就自己服務(wù)器存儲(chǔ)的爬取的圖片每天都會(huì)有上百?gòu)垼瑫r(shí)間一長(zhǎng),圖片占用的存儲(chǔ)空間就會(huì)特別大,所以需要定時(shí)清理一下,有興趣的可以看看項(xiàng)目里面的clear-expire.js文件。
總結(jié)其實(shí),雖然這個(gè)項(xiàng)目整體并不復(fù)雜,但是一套前后端系統(tǒng)搭建起來(lái)的過(guò)程中,自己的收獲還是挺不少的,很多問(wèn)題的解決需要自己去實(shí)踐和思考的,對(duì)于性能優(yōu)化考量也是一個(gè)重要的方面。
下面截圖就是我最終完成得m站,界面很清爽,體驗(yàn)上確實(shí)比cnBeta官網(wǎng)要好很多。這樣是平時(shí)看科技新聞也確實(shí)方便很多。
以上
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19448.html
摘要:前言一直很喜歡看科技新聞,多年來(lái)一直混跡于,以前西貝的評(píng)論區(qū)是匿名的,所以評(píng)論區(qū)非常活躍,各種噴子和段子,不過(guò)也確實(shí)很歡樂(lè),可以說(shuō)那是西貝人氣最旺的時(shí)候。 前言 一直很喜歡看科技新聞,多年來(lái)一直混跡于cnBeta,以前西貝的評(píng)論區(qū)是匿名的,所以評(píng)論區(qū)非常活躍,各種噴子和段子,不過(guò)也確實(shí)很歡樂(lè),可以說(shuō)那是西貝人氣最旺的時(shí)候。然而自從去年網(wǎng)信辦出臺(tái)了《互聯(lián)網(wǎng)跟帖評(píng)論服務(wù)管理規(guī)定》,要求只有...
摘要:本文轉(zhuǎn)載自微信公眾號(hào)賬號(hào),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開(kāi)發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號(hào)Docker(賬號(hào):dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開(kāi)發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺(tái)的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...
摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:爬蟲(chóng)介紹二爬蟲(chóng)的分類(lèi)通用網(wǎng)絡(luò)爬蟲(chóng)全網(wǎng)爬蟲(chóng)爬行對(duì)象從一些種子擴(kuò)充到整個(gè),主要為門(mén)戶站點(diǎn)搜索引擎和大型服務(wù)提供商采集數(shù)據(jù)。 分分鐘教你用node.js寫(xiě)個(gè)爬蟲(chóng) 寫(xiě)在前面 十分感謝大家的點(diǎn)贊和關(guān)注。其實(shí),這是我第一次在segmentfault上寫(xiě)文章。因?yàn)槲乙彩乔岸螘r(shí)間偶然之間才開(kāi)始了解和學(xué)習(xí)爬蟲(chóng),而且學(xué)習(xí)node的時(shí)間也不是很長(zhǎng)。雖然用node做過(guò)一些后端的項(xiàng)目,但其實(shí)在node和爬蟲(chóng)方面...
閱讀 1180·2021-11-22 13:54
閱讀 2428·2021-09-22 15:36
閱讀 2735·2019-08-30 15:54
閱讀 802·2019-08-30 15:53
閱讀 3168·2019-08-30 15:53
閱讀 515·2019-08-29 15:21
閱讀 2862·2019-08-28 18:28
閱讀 3004·2019-08-26 13:37