Nodejs爬蟲--抓取豆瓣電影網(wǎng)頁數(shù)據(jù)（下）

legendaryedu 發(fā)布于2019-08-20 14:16 / 1533人閱讀

摘要：接著上篇爬蟲抓取豆瓣電影網(wǎng)頁數(shù)據(jù)上本篇主要描述將上次抓取的數(shù)據(jù)存入數(shù)據(jù)庫前提百度或谷歌的安裝教程，安裝本地并成功運(yùn)行推薦一款數(shù)據(jù)庫可視化管理工具。

接著上篇 Nodejs爬蟲--抓取豆瓣電影網(wǎng)頁數(shù)據(jù)（上）
  本篇主要描述將上次抓取的數(shù)據(jù)存入mongodb數(shù)據(jù)庫

前提：百度或谷歌mongodb的安裝教程，安裝本地并成功運(yùn)行
推薦一款mongodb數(shù)據(jù)庫可視化管理工具：Robomongo。可以加群264591039獲取安裝包或自行尋找資源

首先用npm安裝第三方數(shù)據(jù)庫操作包：mongoose.

關(guān)于mongoose詳情請查看官方文檔

npm install --save-dev mongoose

引入mongoose包開始對mongodb進(jìn)行管理

當(dāng)前目錄下新建一個mongo.js文件方便管理，在該文件中引入相關(guān)包：

let mongoose = require("mongoose"),
    assert = require("assert");

獲取表構(gòu)造器Schema并映射mongodb相應(yīng)的collection

let Schema = mongoose.Schema;

let filmSchema = new Schema({       //自定義相應(yīng)的表數(shù)據(jù)字段
        title: String,
        type: String,
        directories: String,
        scriptwriter: String,
        actors: String
    });
//映射collection并生成model對象用于管理數(shù)據(jù)表的增刪改查
//默認(rèn)是映射到名為films的collection
//若自定義表明則：let filmSchema = new Schema({..}, { collection: "data" });  "data"即為自定義名稱
let Film = mongoose.model("Film", filmSchema);

連接mongodb數(shù)據(jù)庫并exports Film對象

let db = mongoose.connect("mongodb://127.0.0.1:27017/spider");
db.connection.on("error", (err) => {
    console.log(`數(shù)據(jù)庫連接失敗：${err}`);
});
db.connection.on("open", () => {
    console.log("數(shù)據(jù)庫連接成功");
});

module.exports = {Film: Film};

在spider.js中引入Film對象并添加入庫操作代碼

let mongo = require("./mongo");
//在請求網(wǎng)頁的end函數(shù)中添加入庫操作
xxxx.end((err, res) => {
    var $ = cheerio.load(res.text);     //用cheerio獲取整個頁面DOM對象
    var _data = {title:"", type: "", directories: "", scriptwriter: "", actors: ""};
    _data.title = $("#content h1 span").text();
    _data.directories = $("#info .attrs").eq(0).text();
    _data.scriptwriter = $("#info .attrs").eq(1).text();
    _data.actors = $("#info .attrs").eq(2).text();
    $("span[property="v:genre"]").each(function (index) {
        _data.type += ($(this).text() + (index == $("span[property="v:genre"]").length - 1 ? "" : "、"));
    });
    console.log(_data);
    mongo.Film.create(_data, (err, doc) => {
                        assert.equal(err, null);
                        console.log(doc);
                    });
});

運(yùn)行spider.js，并查看數(shù)據(jù)庫中的數(shù)據(jù)

node spider.js
//用上述提到的可視化工具查看數(shù)據(jù)庫是否成功有數(shù)據(jù)入庫

GPU云服務(wù)器云服務(wù)器網(wǎng)頁爬蟲抓取數(shù)據(jù) 爬蟲抓取網(wǎng)頁數(shù)據(jù) js爬蟲抓取網(wǎng)頁數(shù)據(jù)過濾 nodejs抓取網(wǎng)頁

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/81504.html

發(fā)表評論

登陸后可評論

0條評論

legendaryedu

男|高級講師

我要關(guān)注我要私信

TA的文章

四·C語言之·函數(shù)全方位理解

閱讀 4369·2021-11-22 09:34
C++入門string類常用接口函數(shù)介紹 + 進(jìn)階【模擬實(shí)現(xiàn)string接口函數(shù)】

閱讀 2695·2021-11-12 10:36
Wikihost(微基主機(jī))：洛杉磯聯(lián)通CU AS9929/AS4837 VPS促銷，年付85折，免

閱讀 746·2021-08-18 10:23
balabala: dom 轉(zhuǎn)圖片場景和技術(shù)方案

閱讀 2640·2019-08-30 15:55
前端面試題（中）

閱讀 3119·2019-08-30 15:53
2019.7.15 - 7.21 我們 36人都學(xué)了些什么？

閱讀 2086·2019-08-30 15:44
一些實(shí)現(xiàn)垂直居中的方法

閱讀 1367·2019-08-29 15:37
使用css3實(shí)現(xiàn)骰子動畫

閱讀 1411·2019-08-29 13:04

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Nodejs爬蟲--抓取豆瓣電影網(wǎng)頁數(shù)據(jù)（下）

相關(guān)文章