摘要:對新手來說,難點部分在于如何找到并成功跳轉到下一頁,并且在最后一頁的時候識別出來并停止爬蟲。一個很基礎的爬蟲。
這是一個很好的新手練習項目,爬取豆瓣top250的電影,并分別記錄排名、片名、導演、主演、評論等信息,保存在一個txt文檔里。
對新手來說,難點部分在于如何找到并成功跳轉到下一頁,并且在最后一頁的時候識別出來并停止爬蟲。
一個很基礎的爬蟲。以下是代碼部分。
import requests from bs4 import BeautifulSoup import time import re lurl = "https://movie.douban.com/top250" movie = [] def getlist(listurl): time.sleep(2) headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"} res = requests.get(listurl) soup = BeautifulSoup(res.text, "html.parser") movielist = soup.select(".grid_view li") for m in movielist: rank = m.select("em")[0].text title = m.select(".title")[0].text direct = m.select(".info .bd p")[0].text.strip() actor = " 主演:".join(direct.split("???主演:")) director = "年代:".join(actor.split(" ")) if m.select(".inq"): comments = m.select(".inq")[0].text.strip() else: comments = "None" movie.append("排名: "+ rank+ " " +"片名: "+ title + " "+ director + " " + "評論: "+ comments +" " + " ") if soup.select(".next a"): asoup = soup.select(".next a")[0]["href"] Next_page = lurl + asoup getlist(Next_page) else: print("結束") return movie movies = getlist(lurl) with open("movie.txt", "w") as m: for a in movies: m.write(a)
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38370.html
摘要:根據在年的調查顯示,近的數據科學家使用作為主要的編程語言,每一次的進步都是它成為數據分析主流工具的重要因素。根據進行的一項調查顯示,在上的月活躍用戶的占比在年后大幅上升。 昨天,微信的Python交流群出現了這樣的對話: showImg(https://segmentfault.com/img/bVbjV16?w=700&h=425); 看到這部分代碼交流,讓我不禁感受到Python的...
摘要:楚江數據是專業的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務,服務范圍涵蓋社交網絡電子商務分類信息學術研究等。 楚江數據是專業的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...
摘要:前言新接觸爬蟲,經過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。 0.前言 新接觸爬蟲,經過一段時間的實踐,寫了幾個簡單爬蟲,爬取豆瓣電影的爬蟲例子網上有很多,但都很簡單,大部分只介紹了請求頁面和解析部分,對于新手而言,我希望能夠有一個比較全面的實例。所以找了很多實例和文...
摘要:本文內容爬取豆瓣電影頁面內容,字段包含排名,片名,導演,一句話描述有的為空,評分,評價人數,上映時間,上映國家,類別抓取數據存儲介紹爬蟲框架教程一入門創建項目創建爬蟲注意,爬蟲名不能和項目名一樣應對反爬策略的配置打開文件,將修改為。 本文內容 爬取豆瓣電影Top250頁面內容,字段包含:排名,片名,導演,一句話描述 有的為空,評分,評價人數,上映時間,上映國家,類別 抓取數據存儲 ...
摘要:注意爬豆爬一定要加入選項,因為只要解析到網站的有,就會自動進行過濾處理,把處理結果分配到相應的類別,但偏偏豆瓣里面的為空不需要分配,所以一定要關掉這個選項。 本課只針對python3環境下的Scrapy版本(即scrapy1.3+) 選取什么網站來爬取呢? 對于歪果人,上手練scrapy爬蟲的網站一般是官方練手網站 http://quotes.toscrape.com 我們中國人,當然...
閱讀 1731·2023-04-25 23:43
閱讀 908·2021-11-24 09:39
閱讀 713·2021-11-22 15:25
閱讀 1711·2021-11-22 12:08
閱讀 1085·2021-11-18 10:07
閱讀 2067·2021-09-23 11:22
閱讀 3339·2021-09-22 15:23
閱讀 2470·2021-09-13 10:32