摘要:的安裝是一種非關系型數據庫官網選擇你的系統對應的版本下載安裝即可配置在盤或者盤建一個文件夾如圖安裝成功后里面會有文件然后再文件夾里面新建一個文件夾,文件里面新建文件夾文件夾用于存儲數據在文件路徑下打開命令行工具執行下面的命令注意文件夾路
1.MongoDB的安裝
MongoDB是一種非關系型數據庫
MongoDB官網
選擇你的系統對應的版本下載安裝即可
2.MongoDB配置a.在C盤或者D盤建一個文件夾如圖mongodb
b.安裝成功后里面會有bin文件然后再文件夾里面新建一個data文件夾,data文件里面新建db文件夾
db文件夾用于存儲MongoDB數據
c.在bin文件路徑下打開命令行工具執行下面的命令
mongod --dbpath C:mongdbdatadb
注意:文件夾路徑以自己所建的為準
d.此時在打開一個命令行在bin路徑下執行下面的代碼
mongo3.安裝第三方庫pymongo(連接MongoDB)
pip3 install pymongo4.安裝Mongodb可視化管理工具Robomongo
Robomongo官網
安裝成功之后啟動Robomongo,在空白處點擊,然后選擇Add命令,單擊Save,最后點擊Connect按鈕連接到MongoDB數據庫
5.案例代碼引入相應的模塊
import requests from lxml import etree import re import pymongo import time
連接mongodb數據庫
client = pymongo.MongoClient("localhost", 27017) mydb = client["mydb"] musictop = mydb["musictop"]
案例完整代碼
import requests from lxml import etree import re import pymongo import time client = pymongo.MongoClient("localhost", 27017) mydb = client["mydb"] musictop = mydb["musictop"] headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36" } def get_url_music(url): html = requests.get(url, headers=headers) selector = etree.HTML(html.text) music_hrefs = selector.xpath("http://a[@class="nbg"]/@href") for music_href in music_hrefs: get_music_info(music_href) def get_music_info(url): html = requests.get(url, headers=headers) selector = etree.HTML(html.text) name = selector.xpath("http://*[@id="wrapper"]/h1/span/text()")[0] author = re.findall("表演者:.*?>(.*?)", html.text,re.S)[0] styles = re.findall("流派: (.*?)6.執行爬蟲代碼,然后到Robomongo刷新就會看到數據已經有啦 7.本文只是入門級別,我分享出來希望和大家一起學習進步! 我還寫了Vue插件開發和搶紅包的小游戲(歡迎Star)
",html.text,re.S) if len(styles) == 0: style = "未知" else: style = styles[0].strip() time = re.findall("發行時間: (.*?)
", html.text, re.S)[0].strip() publishers = re.findall("出版者:.*?>(.*?)", html.text, re.S) if len(publishers) == 0: publishers = "未知" else: publishers = publishers[0].strip() score = selector.xpath("http://*[@id="interest_sectl"]/div/div[2]/strong/text()")[0] print(name, author, style, time, publishers, score) info = { "name": name, "author": author, "style": style, "time": time, "publisher": publishers, "score": score } musictop.insert_one(info) if __name__ == "__main__": urls = ["https://music.douban.com/top250?start={}".format(str(i)) for i in range(0, 250, 25)] for url in urls: get_url_music(url) time.sleep(2)
Vue插件開發
搶紅包小游戲
Python爬蟲入門
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19289.html
摘要:的安裝是一種非關系型數據庫官網選擇你的系統對應的版本下載安裝即可配置在盤或者盤建一個文件夾如圖安裝成功后里面會有文件然后再文件夾里面新建一個文件夾,文件里面新建文件夾文件夾用于存儲數據在文件路徑下打開命令行工具執行下面的命令注意文件夾路 1.MongoDB的安裝 MongoDB是一種非關系型數據庫 MongoDB官網 showImg(https://segmentfault.com/i...
摘要:的安裝是一個輕量級的關系型數據庫,以表的形式來存儲數據,本節我們來了解下它的安裝方式。相關鏈接官方網站下載地址中文教程下的安裝推薦使用安裝,執行命令即可。上一篇文章網絡爬蟲實戰解析庫的安裝下一篇文章網絡爬蟲實戰存儲庫的安裝 上一篇文章:Python3網絡爬蟲實戰---3、解析庫的安裝:LXML、BeautifulSoup、PyQuery、Tesserocr下一篇文章:Python3網絡...
摘要:相關鏈接官方文檔安裝推薦使用安裝,命令如下運行完畢之后即可完成的安裝。上一篇文章網絡爬蟲實戰數據庫的安裝下一篇文章網絡爬蟲實戰庫的安裝 上一篇文章:Python3網絡爬蟲實戰---4、數據庫的安裝:MySQL、MongoDB、Redis下一篇文章:Python3網絡爬蟲實戰---6、Web庫的安裝:Flask、Tornado 在前面一節我們介紹了幾個數據庫的安裝方式,但這僅僅是用來存...
摘要:列存儲數據庫,代表有等。運行結果返回結果是字典形式,即代表執行成功,代表影響的數據條數。上一篇文章網絡爬蟲實戰數據存儲關系型數據庫存儲下一篇文章網絡爬蟲實戰數據存儲非關系型數據庫存儲 上一篇文章:Python3網絡爬蟲實戰---32、數據存儲:關系型數據庫存儲:MySQL下一篇文章:Python3網絡爬蟲實戰---34、數據存儲:非關系型數據庫存儲:Redis NoSQL,全稱 No...
閱讀 1459·2021-09-30 09:57
閱讀 1466·2021-09-09 09:33
閱讀 2220·2021-09-04 16:40
閱讀 1792·2021-09-01 10:50
閱讀 3237·2021-09-01 10:31
閱讀 2539·2019-08-30 15:56
閱讀 2970·2019-08-30 15:44
閱讀 3475·2019-08-29 17:29