一個簡單python爬蟲的實現——爬取電影信息

番茄西紅柿發布于2021-11-22 15:08 / 3241人閱讀

摘要：最近在學習網絡爬蟲，完成了一個比較簡單的網絡爬蟲。網絡爬蟲，可以理解為自動幫你在網絡上收集數據的機器人。網絡爬蟲簡單可以大致分三個步驟第一步要獲取數據，第二步對數據進行處理，第三步要儲存數據。

最近在學習網絡爬蟲，完成了一個比較簡單的python網絡爬蟲。首先為什么要用爬蟲爬取信息呢，當然是因為要比人去收集更高效。

網絡爬蟲，可以理解為自動幫你在網絡上收集數據的機器人。

　　網絡爬蟲簡單可以大致分三個步驟：

　　　　第一步要獲取數據，

　　　　第二步對數據進行處理，

　　　　第三步要儲存數據。

　　獲取數據的時候這里我用到了python的urllib標準庫，它是python中非常方便抓取網頁內容的一個模塊。

　　具體為：

　　這里我要爬取的是電影天堂一個電影頁面的電影名稱，日期等數據。

1 from urllib import request
 2 def get_data ( ):
 3     url=/http://www.dytt8.net/html/gndy/dyzz/list_23_1.html/
 4     headers={/User-Agent/: / Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36/ }
 5     req=request.Request(url, headers=headers)
 6     response=request.urlopen(req)
 7     # print (type(response)) #響應對象的類型
 8     # print(response.getcode()) #響應狀態碼
 9     # print(response.info())
10     if response.getcode() == 200:
11         data=response.read()#讀取響應的結果
12         data =str(data,encoding=/gb2312/)
13         #print(data)
14         #將數據寫入文件中
15         with open (/index.html/,mode=/w/,encoding=/gb2312/) as  f:
16             f.write(data)

　　　　這里的headers是一個參數，就是你的瀏覽器在訪問服務器的時候，會讓服務器知道你的瀏覽器的一些信息，還有操作系統等信息。if 函數來判斷當網站成功響應的時候，會返回一個200.這時候讀取響應的數據結果，就是網頁的代碼。這里我做了一個字符串轉化處理，根據網頁代碼顯示編碼為gb2312，所以這時候只要將encoding設置為gb2312就可以了。

根據上面的網頁代碼，charset為gb2312判斷的。　　

　　　　當我們存取了網頁數據后，發現它還是html格式的，而且有很多html，css的代碼，但是我們只想要其中的文字信息，這時候怎么辦呢。

　　　　這時候就要用到一個強大的數據處理模塊，beautifusoup4，俗稱美味湯。安裝好這個模塊后。我們就可以對我們的html文件做進一步的處理，提取我們需要的信息。

1 from urllib import request
 2 from bs4 import BeautifulSoup
 3 def get_data ( ):
 4     url=/http://www.dytt8.net/html/gndy/dyzz/list_23_1.html/
 5     headers={/User-Agent/: / Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36/ }
 6     req=request.Request(url, headers=headers)
 7     response=request.urlopen(req)
 8     # print (type(response)) #響應對象的類型
 9     # print(response.getcode()) #響應狀態碼
10     # print(response.info())
11     if response.getcode() == 200:
12         data=response.read()#讀取響應的結果
13         data =str(data,encoding=/gb2312/)
14         #print(data)
15         #將數據寫入文件中
16         with open (/index.html/,mode=/w/,encoding=/gb2312/) as  f:
17             f.write(data)
18 def parse_data():
19     with open (/index.html/,mode=/r/,encoding=/gb2312/) as  f:
20         html = f.read()
21     bs = BeautifulSoup(html,/html.parser/)
22     metas = bs.select("[class~=ulink]")
23     date = bs.select("[color=#8F8C89]")
24     i=0
25     while i < 25:
26         print(metas[i].get_text())
27         print(date[i].get_text())
28         i=i+1
29 
30 
31 
32 
33 if __name__ == /__main__/:
34     #get_data()
35     parse_data()

　　這里我們用到了美味湯中的CSS選擇器功能，就是只把我們想要的信息選擇處來，根據網頁代碼，發現class等于ulink的時候后面跟著的信息是我們需要的。還有color=#8F8C89也是我們需要的。使用select方法，將選中的信息篩選出來。最終結果：

點擊0是因為網站顯示就是0，估計是網站的問題。這樣我們就得到了電影信息以及發布的時間信息。后面還有很多。根據這次簡單爬蟲的實現，我發現web爬蟲除了你要懂python的知識之外，對于html，CSS等前端知識你也要有一定了解。爬蟲是模擬人去收集網站數據的，有些網站以及建立了反爬蟲技術。所以爬蟲的技術也在不斷更新。

云服務器 GPU云服務器 python實現簡單爬蟲功能 python簡單的爬蟲簡單的python爬蟲 python3簡單的爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/124256.html

爬蟲 - 收藏集 - 掘金

摘要：在這之前，還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。爬蟲修煉之道——從網頁中提取結構化數據并保存（以爬取糗百文本板塊所有糗事為例） - 后端 - 掘金歡迎大家關注我的專題：爬蟲修煉之道上篇爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲，如何將相對URL轉為絕對URL，如何限速，...

1fe1se 2019-07-31 10:58 評論0 收藏0
爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

defcon 2019-07-30 17:07 評論0 收藏0
爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

Invoker 2019-08-30 15:54 評論0 收藏0
Python 從零開始爬蟲(三)——實戰：requests+BeautifulSoup實現靜態爬取

摘要：前篇全片都是生硬的理論使用，今天就放個靜態爬取的實例讓大家體驗一下的使用，了解一些背后的原理。給出網站打開右鍵檢查第一個電影，分析源碼先，發現每個標簽就對應著一個電影的信息。前篇全片都是生硬的理論使用，今天就放個靜態爬取的實例讓大家體驗一下BeautifulSoup的使用，了解一些背后的原理。順便在這引入靜態網頁的概念——靜態網頁是指一次性加載所有內容的網頁，爬蟲一次請求便能得到所...

Codeing_ls 2019-07-30 16:15 評論0 收藏0
談談對Python爬蟲的理解

摘要：爬蟲也可以稱為爬蟲不知從何時起，這門語言和爬蟲就像一對戀人，二者如膠似漆，形影不離，你中有我我中有你，一提起爬蟲，就會想到，一說起，就會想到人工智能和爬蟲所以，一般說爬蟲的時候，大部分程序員潛意識里都會聯想為爬蟲，為什么會這樣，我覺得有兩個爬蟲也可以稱為Python爬蟲不知從何時起，Python這門語言和爬蟲就像一對戀人，二者如膠似漆，形影不離，你中有我、我中有你，一提起爬蟲，就...

Yang_River 2019-07-30 18:44 評論0 收藏0