（轉(zhuǎn)）Python3爬取豆瓣電影保存到MySQL數(shù)據(jù)庫

nevermind 發(fā)布于2019-07-31 10:15 / 3179人閱讀

摘要：行代碼實(shí)現(xiàn)爬取豆瓣電影排行榜代碼基于，用到的類庫有標(biāo)題文字通過偽造請求頭或設(shè)置代理等方式獲取頁面內(nèi)容，參考文檔對頁面進(jìn)行解析，提取數(shù)據(jù)，參考文檔版本中用于操作數(shù)據(jù)庫，中則使用，安裝用到的幾個(gè)類庫分析豆瓣電影頁面頁面分析爬取數(shù)據(jù)之前，我們都需

48行代碼實(shí)現(xiàn)Python3爬取豆瓣電影排行榜
代碼基于python3，用到的類庫有:

標(biāo)題文字

requests:通過偽造請求頭或設(shè)置代理等方式獲取頁面內(nèi)容，參考文檔
BeautifulSoup:對頁面進(jìn)行解析，提取數(shù)據(jù)，參考文檔
PyMySQL:python3版本中用于操作MySQL數(shù)據(jù)庫，python2中則使用mysqldb，Github

pip安裝用到的幾個(gè)類庫:

pip install requests
pip install bs4
pip install pymysql
分析豆瓣電影頁面
頁面分析:
爬取數(shù)據(jù)之前，我們都需要對頁面進(jìn)行分析，看我們可以從中提取到哪些數(shù)據(jù)，從下圖我們看到豆瓣電影top250的頁面結(jié)構(gòu)，我們可以從中提取出排行榜(rank)、電影名字(name)、電影詳情頁鏈接(link)、電影海報(bào)(poster)、電影評分(score)、電影評論(quote)等，我在圖中進(jìn)行了標(biāo)注

URL分析:
通過點(diǎn)擊分頁我們可以發(fā)現(xiàn)URL的格式為:https://movie.douban.com/top2...
其中num表示25的倍數(shù)的數(shù)字，最小是0也就是第一頁，最大為225也就是最后一頁，這可以作為我們爬取頁面的限制條件，filter為過濾條件這里可不用管

代碼
引入類庫:

import pymysql
import requests
from bs4 import BeautifulSoup
定義爬取鏈接，%d用作數(shù)字占位:

baseUrl = "https://movie.douban.com/top250?start=%d&filter="
定義爬取數(shù)據(jù)方法:

def get_movies(start):

url = baseUrl % start   # 拼接爬取鏈接
lists = []              # 存儲此頁面的電影數(shù)據(jù)
html = requests.get(url)    # requests請求頁面內(nèi)容，由于豆瓣沒有限制爬取，所以不用設(shè)置偽請求頭
soup = BeautifulSoup(html.content, "html.parser")   # BeautifulSoup解析頁面內(nèi)容
items = soup.find("ol", "grid_view").find_all("li") # 獲取所有的電影內(nèi)容
for i in items:
    movie = {}      # 臨時(shí)存取電影的數(shù)據(jù)
    movie["rank"] = i.find("em").text   # 電影排行榜
    movie["link"] = i.find("div","pic").find("a").get("href")   # 電影詳情頁鏈接
    movie["poster"] = i.find("div","pic").find("a").find("img").get("src")  # 電影海報(bào)地址
    movie["name"] = i.find("span", "title").text    # 電影名字
    movie["score"] = i.find("span", "rating_num").text  # 電影評分
    movie["quote"] = i.find("span", "inq").text if(i.find("span", "inq")) else "" # 某些電影沒有點(diǎn)評，沒有就設(shè)為空
    lists.append(movie) # 保存到返回?cái)?shù)組中
return lists

連接數(shù)據(jù)庫并創(chuàng)建數(shù)據(jù)表:

連接數(shù)據(jù)庫，需指定charset否則可能會報(bào)錯(cuò)

db = pymysql.connect(host="localhost",user="root",password="root",db="test",charset="utf8mb4")
cursor = db.cursor() # 創(chuàng)建一個(gè)游標(biāo)對象
cursor.execute("DROP TABLE IF EXISTS movies") # 如果表存在則刪除

創(chuàng)建表sql語句

createTab = """CREATE TABLE movies(

id INT NOT NULL AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(20) NOT NULL,
rank VARCHAR(4) NOT NULL,
link VARCHAR(50) NOT NULL,
poster VARCHAR(100) NOT NULL,
score VARCHAR(4) NOT NULL,
quote VARCHAR(50)

)"""
cursor.execute(createTab) # 執(zhí)行創(chuàng)建數(shù)據(jù)表操作
......
db.close() # 關(guān)閉數(shù)據(jù)庫
將提取到的數(shù)據(jù)存儲到數(shù)據(jù)表中:

lists = get_movies(start) # 獲取提取到數(shù)據(jù)

for i in lists:
    # 插入數(shù)據(jù)到數(shù)據(jù)庫sql語句，%s用作字符串占位
    sql = "INSERT INTO `movies`(`name`,`rank`,`link`,`poster`,`score`,`quote`) VALUES(%s,%s,%s,%s,%s,%s)"
    try:
        cursor.execute(sql, (i["name"], i["rank"], i["link"], i["poster"], i["score"], i["quote"]))
        db.commit()
        print(i[0]+" is success")
    except:
        db.rollback()
start += 25

完整代碼:

import pymysql
import requests
from bs4 import BeautifulSoup
baseUrl = "https://movie.douban.com/top250?start=%d&filter="
def get_movies(start):

url = baseUrl % start
lists = []
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
items = soup.find("ol", "grid_view").find_all("li")
for i in items:
    movie = {}
    movie["rank"] = i.find("em").text
    movie["link"] = i.find("div","pic").find("a").get("href")
    movie["poster"] = i.find("div","pic").find("a").find("img").get("src")
    movie["name"] = i.find("span", "title").text
    movie["score"] = i.find("span", "rating_num").text
    movie["quote"] = i.find("span", "inq").text if(i.find("span", "inq")) else ""
    lists.append(movie)
return lists

if name == "__main__":

db = pymysql.connect(host="localhost",user="root",password="root",db="test",charset="utf8mb4")

云服務(wù)器 GPU云服務(wù)器保存到MySQL數(shù)據(jù)庫豆瓣電影數(shù)據(jù)分析可視化豆瓣電影 python豆瓣電影

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/43503.html

發(fā)表評論

登陸后可評論

0條評論

nevermind

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow1.8

閱讀 3564·2023-04-26 00:05
C語言實(shí)現(xiàn)入門級小游戲——掃雷

閱讀 954·2021-11-11 16:55
單片機(jī)入門指南

閱讀 3522·2021-09-26 09:46
TP5實(shí)現(xiàn)表格拖動排序并保存到數(shù)據(jù)庫功能

閱讀 3517·2019-08-30 15:56
前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動態(tài)效果）

閱讀 909·2019-08-30 15:55
【零基礎(chǔ)入門】 css學(xué)習(xí)筆記（4）布局與定位介紹

閱讀 2934·2019-08-30 15:53
關(guān)于響應(yīng)式布局，你必須要知道的

閱讀 1940·2019-08-29 17:11
python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁設(shè)計(jì)（表單）

閱讀 814·2019-08-29 16:52

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

（轉(zhuǎn)）Python3爬取豆瓣電影保存到MySQL數(shù)據(jù)庫

相關(guān)文章

scrapy入門教程——爬取豆瓣電影Top250！

**爬取豆瓣電影top250提取電影分類進(jìn)行數(shù)據(jù)分析**

爬蟲 - 收藏集 - 掘金

80行代碼爬取豆瓣Top250電影信息并導(dǎo)出到csv及數(shù)據(jù)庫

發(fā)表評論

0條評論

nevermind

男|高級講師

TA的文章

tensorflow1.8

C語言實(shí)現(xiàn)入門級小游戲——掃雷

單片機(jī)入門指南

TP5實(shí)現(xiàn)表格拖動排序并保存到數(shù)據(jù)庫功能

前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動態(tài)效果）

【零基礎(chǔ)入門】 css學(xué)習(xí)筆記（4）布局與定位介紹

關(guān)于響應(yīng)式布局，你必須要知道的

python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁設(shè)計(jì)（表單）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

（轉(zhuǎn)）Python3爬取豆瓣電影保存到MySQL數(shù)據(jù)庫

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！