Python爬蟲之使用MongoDB存儲數據

shiina 發布于2019-06-26 17:42 / 1330人閱讀

摘要：的安裝是一種非關系型數據庫官網選擇你的系統對應的版本下載安裝即可配置在盤或者盤建一個文件夾如圖安裝成功后里面會有文件然后再文件夾里面新建一個文件夾，文件里面新建文件夾文件夾用于存儲數據在文件路徑下打開命令行工具執行下面的命令注意文件夾路

1.MongoDB的安裝

MongoDB是一種非關系型數據庫

MongoDB官網

選擇你的系統對應的版本下載安裝即可

2.MongoDB配置

a.在C盤或者D盤建一個文件夾如圖mongodb

b.安裝成功后里面會有bin文件然后再文件夾里面新建一個data文件夾，data文件里面新建db文件夾

db文件夾用于存儲MongoDB數據

c.在bin文件路徑下打開命令行工具執行下面的命令

mongod --dbpath C:mongdbdatadb

注意：文件夾路徑以自己所建的為準

d.此時在打開一個命令行在bin路徑下執行下面的代碼

mongo

3.安裝第三方庫pymongo(連接MongoDB)

pip3 install pymongo

4.安裝Mongodb可視化管理工具Robomongo

Robomongo官網

安裝成功之后啟動Robomongo，在空白處點擊，然后選擇Add命令，單擊Save,最后點擊Connect按鈕連接到MongoDB數據庫

5.案例代碼

引入相應的模塊

import requests
from lxml import etree
import re
import pymongo
import time

連接mongodb數據庫

client = pymongo.MongoClient("localhost", 27017)
mydb = client["mydb"]
musictop = mydb["musictop"]

案例完整代碼

import requests
from lxml import etree
import re
import pymongo
import time

client = pymongo.MongoClient("localhost", 27017)
mydb = client["mydb"]
musictop = mydb["musictop"]

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"
}

def get_url_music(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    music_hrefs = selector.xpath("http://a[@class="nbg"]/@href")
    for music_href in music_hrefs:
        get_music_info(music_href)

def get_music_info(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    name = selector.xpath("http://*[@id="wrapper"]/h1/span/text()")[0]
    author = re.findall("表演者:.*?>(.*?)", html.text,re.S)[0]
    styles = re.findall("流派: (.*?)
",html.text,re.S)
    if len(styles) == 0:
        style = "未知"
    else:
        style = styles[0].strip()
    time = re.findall("發行時間: (.*?)
", html.text, re.S)[0].strip()
    publishers = re.findall("出版者:.*?>(.*?)", html.text, re.S)

    if len(publishers) == 0:
        publishers = "未知"
    else:
        publishers = publishers[0].strip()
    score = selector.xpath("http://*[@id="interest_sectl"]/div/div[2]/strong/text()")[0]
    print(name, author, style, time, publishers, score)
    info = {
        "name": name,
        "author": author,
        "style": style,
        "time": time,
        "publisher": publishers,
        "score": score
    }

    musictop.insert_one(info)

if __name__ == "__main__":
    urls = ["https://music.douban.com/top250?start={}".format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        get_url_music(url)
        time.sleep(2)

6.執行爬蟲代碼，然后到Robomongo刷新就會看到數據已經有啦

7.本文只是入門級別，我分享出來希望和大家一起學習進步！我還寫了Vue插件開發和搶紅包的小游戲(歡迎Star)

Vue插件開發

搶紅包小游戲

Python爬蟲入門

云服務器 GPU云服務器 python爬蟲使用代理ip 數據之星云存儲免費mongodb數據庫使用 mongodb數據庫如何使用

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19289.html

Python爬蟲之使用MongoDB存儲數據

摘要：的安裝是一種非關系型數據庫官網選擇你的系統對應的版本下載安裝即可配置在盤或者盤建一個文件夾如圖安裝成功后里面會有文件然后再文件夾里面新建一個文件夾，文件里面新建文件夾文件夾用于存儲數據在文件路徑下打開命令行工具執行下面的命令注意文件夾路 1.MongoDB的安裝 MongoDB是一種非關系型數據庫 MongoDB官網 showImg(https://segmentfault.com/i...

james 2019-07-30 16:47 評論0 收藏0
Python3網絡爬蟲實戰---4、數據庫的安裝：MySQL、MongoDB、Redis

摘要：的安裝是一個輕量級的關系型數據庫，以表的形式來存儲數據，本節我們來了解下它的安裝方式。相關鏈接官方網站下載地址中文教程下的安裝推薦使用安裝，執行命令即可。上一篇文章網絡爬蟲實戰解析庫的安裝下一篇文章網絡爬蟲實戰存儲庫的安裝上一篇文章：Python3網絡爬蟲實戰---3、解析庫的安裝：LXML、BeautifulSoup、PyQuery、Tesserocr下一篇文章：Python3網絡...

winterdawn 2019-07-31 10:34 評論0 收藏0
Python3網絡爬蟲實戰---5、存儲庫的安裝:PyMySQL、PyMongo、RedisPy、R

摘要：相關鏈接官方文檔安裝推薦使用安裝，命令如下運行完畢之后即可完成的安裝。上一篇文章網絡爬蟲實戰數據庫的安裝下一篇文章網絡爬蟲實戰庫的安裝上一篇文章：Python3網絡爬蟲實戰---4、數據庫的安裝：MySQL、MongoDB、Redis下一篇文章：Python3網絡爬蟲實戰---6、Web庫的安裝：Flask、Tornado 在前面一節我們介紹了幾個數據庫的安裝方式，但這僅僅是用來存...

AlanKeene 2019-07-31 10:34 評論0 收藏0
Python3網絡爬蟲實戰---33、數據存儲：非關系型數據庫存儲:MongoDB

摘要：列存儲數據庫，代表有等。運行結果返回結果是字典形式，即代表執行成功，代表影響的數據條數。上一篇文章網絡爬蟲實戰數據存儲關系型數據庫存儲下一篇文章網絡爬蟲實戰數據存儲非關系型數據庫存儲上一篇文章：Python3網絡爬蟲實戰---32、數據存儲：關系型數據庫存儲:MySQL下一篇文章：Python3網絡爬蟲實戰---34、數據存儲：非關系型數據庫存儲:Redis NoSQL，全稱 No...

XanaHopper 2019-07-31 10:35 評論0 收藏0