pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

ShevaKuilin 發布于2019-07-24 17:52 / 1578人閱讀

摘要：但是感覺還是需要一篇的教程，不然沒有一個總體的認識。修飾器，表示每天會執行一次，這樣就能抓到最新的電影了。不過更推薦使用選擇器。既然前端程序員都使用選擇器為頁面上的不同元素設置樣式，我們也可以通過它定位需要的元素。

雖然以前寫過如何抓取WEB頁面和如何從 WEB 頁面中提取信息。但是感覺還是需要一篇 step by step 的教程，不然沒有一個總體的認識。不過，沒想到這個教程居然會變成一篇譯文，在這個爬蟲教程系列文章中，會以實際的例子，由淺入深討論爬取（抓取和解析）的一些關鍵問題。

在教程一中，我們將要爬取的網站是豆瓣電影：http://movie.douban.com/

你可以在: http://demo.pyspider.org/debug/tutorial_douban_movie 獲得完整的代碼，和進行測試。

開始之前

由于教程是基于 pyspider 的，你可以安裝一個 pyspider（Quickstart，也可以直接使用 pyspider 的 demo 環境： http://demo.pyspider.org/。

你還應該至少對萬維網是什么有一個簡單的認識：

萬維網是一個由許多互相鏈接的超文本頁面（以下簡稱網頁）組成的系統。

網頁使用網址（URL）定位，并鏈接彼此

網頁使用 HTTP 協議傳輸

網頁使用 HTML 描述外觀和語義

所以，爬網頁實際上就是：

找到包含我們需要的信息的網址（URL）列表

通過 HTTP 協議把頁面下載回來

從頁面的 HTML 中解析出需要的信息

找到更多這個的 URL，回到 2 繼續

選取一個開始網址

既然我們要爬所有的電影，首先我們需要抓一個電影列表，一個好的列表應該：

包含足夠多的電影的 URL

通過翻頁，可以遍歷到所有的電影

一個按照更新時間排序的列表，可以更快抓到最新更新的電影

我們在 http://movie.douban.com/ 掃了一遍，發現并沒有一個列表能包含所有電影，只能退而求其次，通過抓取分類下的所有的標簽列表頁，來遍歷所有的電影： http://movie.douban.com/tag/

創建一個項目

在 pyspider 的 dashboard 的右下角，點擊 "Create" 按鈕

替換 on_start 函數的 self.crawl 的 URL：

python@every(minutes=24 * 60)
def on_start(self):
    self.crawl("http://movie.douban.com/tag/", callback=self.index_page)

self.crawl 告訴 pyspider 抓取指定頁面，然后使用 callback 函數對結果進行解析。

@every 修飾器，表示 on_start 每天會執行一次，這樣就能抓到最新的電影了。

點擊綠色的 run 執行，你會看到 follows 上面有一個紅色的 1，切換到 follows 面板，點擊綠色的播放按鈕：

Tag 列表頁
在 tag 列表頁中，我們需要提取出所有的電影列表頁的 URL。你可能已經發現了，sample handler 已經提取了非常多大的 URL，所有，一種可行的提取列表頁 URL 的方法就是用正則從中過濾出來：

pythonimport re
...

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc("a[href^="http"]").items():
            if re.match("http://movie.douban.com/tag/w+", each.attr.href, re.U):
                self.crawl(each.attr.href, callback=self.list_page)

由于電影列表頁和 tag列表頁長的并不一樣，在這里新建了一個 callback 為 self.list_page

@config(age=10 * 24 * 60 * 60) 在這表示我們認為 10 天內頁面有效，不會再次進行更新抓取

由于 pyspider 是純 Python 環境，你可以使用 Python 強大的內置庫，或者你熟悉的第三方庫對頁面進行解析。不過更推薦使用 CSS選擇器。
電影列表頁
再次點擊 run 讓我們進入一個電影列表頁(list_page)。在這個頁面中我們需要提取：

電影的鏈接，例如，http://movie.douban.com/subject/1292052/

下一頁的鏈接，用來翻頁
CSS選擇器
CSS選擇器，顧名思義，是 CSS 用來定位需要設置樣式的元素所使用的表達式。既然前端程序員都使用 CSS選擇器為頁面上的不同元素設置樣式，我們也可以通過它定位需要的元素。你可以在 CSS 選擇器參考手冊這里學習更多的 CSS選擇器語法。

在 pyspider 中，內置了 response.doc 的 PyQuery 對象，讓你可以使用類似 jQuery 的語法操作 DOM 元素。你可以在 PyQuery 的頁面上找到完整的文檔。
CSS Selector Helper
在 pyspider 中，還內置了一個 CSS Selector Helper，當你點擊頁面上的元素的時候，可以幫你生成它的 CSS選擇器表達式。你可以點擊 Enable CSS selector helper 按鈕，然后切換到 web 頁面：

開啟后，鼠標放在元素上，會被黃色高亮，點擊后，所有擁有相同 CSS選擇器表達式的元素會被高亮。表達式會被插入到 python 代碼當前光標位置。創建下面的代碼，將光標停留在單引號中間：

pythondef list_page(self, response):
    for each in response.doc("").items():

點擊一個電影的鏈接，CSS選擇器表達式將會插入到你的代碼中，如此重復，插入翻頁的鏈接：

pythondef list_page(self, response):
    for each in response.doc("HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV>TABLE TR.item>TD>DIV.pl2>A").items():
        self.crawl(each.attr.href, callback=self.detail_page)
    # 翻頁
    for each in response.doc("HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.paginator>A").items():
        self.crawl(each.attr.href, callback=self.list_page)

翻頁是一個到自己的 callback 回調

電影詳情頁
再次點擊 run，follow 到詳情頁。使用 css selector helper 分別添加電影標題，打分和導演：

pythondef detail_page(self, response):
    return {
        "url": response.url,
        "title": response.doc("HTML>BODY>DIV#wrapper>DIV#content>H1>SPAN").text(),
        "rating": response.doc("HTML>BODY>DIV#wrapper>DIV#content>DIV.grid-16-8.clearfix>DIV.article>DIV.indent.clearfix>DIV.subjectwrap.clearfix>DIV#interest_sectl>DIV.rating_wrap.clearbox>P.rating_self.clearfix>STRONG.ll.rating_num").text(),
        "導演": [x.text() for x in response.doc("a[rel="v:directedBy"]").items()],
    }

注意，你會發現 css selector helper 并不是總是能提取到合適的 CSS選擇器表達式。你可以在 Chrome Dev Tools 的幫助下，寫一個合適的表達式：

右鍵點擊需要提取的元素，點擊審查元素。你并不需要像自動生成的表達式那樣寫出所有的祖先節點，只要寫出那些能區分你不需要的元素的關鍵節點的屬性就可以了。不過這需要抓取和網頁前端的經驗。所以，學習抓取的最好方法就是學會這個頁面/網站是怎么寫的。

你也可以在 Chrome Dev Tools 的 Javascript Console 中，使用 $$(a[rel="v:directedBy"]) 測試 CSS Selector。
開始抓取
使用 run 單步調試你的代碼，對于用一個 callback 最好使用多個頁面類型進行測試。然后保存。

回到 Dashboard，找到你的項目

將 status 修改為 DEBUG 或 RUNNING

按 run 按鈕

原文：http://blog.binux.me/2015/01/pyspider-tutorial-level-1-html-and-css-selector/ （樣式比原文還好看，鬧哪樣啊）

GPU云服務器云服務器 css選擇器基礎選擇器css html.css教程 html教程css

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/37477.html

上一篇：pyspider 爬蟲教程（二）：AJAX 和 HTTP

下一篇：Pyhton單命令靜態服務器

相關文章

pyspider 實戰項目之爬取去哪兒

摘要：現在我們用一個實戰項目，來進一步掌握框架的使用。此次的項目爬取的目標是去哪兒網，我要將所有攻略的作者標題出發日期人均費用攻略正文等保存下來，存儲到中。代表當前的爬取速率。 showImg(https://segmentfault.com/img/remote/1460000015563534); 閱讀文本大概需要 13 分鐘。通過之前的文章介紹，你現在應該對 pyspider 有了一...

banana_pi 2019-07-30 16:59 評論0 收藏0

pyspider 爬蟲教程（二）：AJAX 和 HTTP

摘要：在上一篇教程中，我們使用抓取豆瓣電影的內容，并使用選擇器解析了一些內容。挨個查看每個請求，通過訪問路徑和預覽，找到包含信息的請求在豆瓣這個例子中，請求并不多，可以挨個查看來確認。腳本中還有一個使用渲染的提取版本，將會在下一篇教程中介紹。在上一篇教程中，我們使用 self.crawl API 抓取豆瓣電影的 HTML 內容，并使用 CSS 選擇器解析了一些內容。不過，現在的網站通過使用...

ingood 2019-07-24 17:52 評論0 收藏0

爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

defcon 2019-07-30 17:07 評論0 收藏0

爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

Invoker 2019-08-30 15:54 評論0 收藏0

Python3網絡爬蟲實戰---10、爬蟲框架的安裝：PySpider、Scrapy

摘要：所以如果對爬蟲有一定基礎，上手框架是一種好的選擇。缺少包，使用安裝即可缺少包，使用安裝即可上一篇文章網絡爬蟲實戰爬取相關庫的安裝的安裝下一篇文章網絡爬蟲實戰爬蟲框架的安裝上一篇文章：Python3網絡爬蟲實戰---9、APP爬取相關庫的安裝：Appium的安裝下一篇文章：Python3網絡爬蟲實戰---11、爬蟲框架的安裝：ScrapySplash、ScrapyRedis 我們直接...

張憲坤 2019-07-31 10:34 評論0 收藏0

發表評論

登陸后可評論

0條評論

ShevaKuilin

男|高級講師

我要關注我要私信

TA的文章
閱讀更多

串口連接傳輸文件

閱讀 866·2021-11-15 11:37

我TM的才30歲，為什么不能轉行程序員？

閱讀 3604·2021-11-11 16:55

Facebook 與 GitHub 達成合作，可避免出現泄漏Facebook API token的情

閱讀 3270·2021-11-11 11:01

Flex 布局

閱讀 999·2019-08-30 15:43

原生js實現簡單的下拉刷新功能

閱讀 2743·2019-08-30 14:12

tooltips 提示

閱讀 681·2019-08-30 12:58

淺談高性能web前端技術棧——小白輕松做到減少HTTP請求

閱讀 3389·2019-08-29 15:19

案例學習總結：原生JS實現表格排序

閱讀 2025·2019-08-29 13:59

最新活動

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

pyspider 爬蟲教程（一）：HTML 和 CSS 選擇器

相關文章

pyspider 實戰項目之爬取去哪兒

pyspider 爬蟲教程（二）：AJAX 和 HTTP

爬蟲入門

爬蟲入門

**Python3網絡爬蟲實戰---10、爬蟲框架的安裝：PySpider、Scrapy**

發表評論

0條評論

ShevaKuilin

男|高級講師

TA的文章

串口連接傳輸文件

我TM的才30歲，為什么不能轉行程序員？

Facebook 與 GitHub 達成合作，可避免出現泄漏Facebook API token的情

Flex 布局

原生js實現簡單的下拉刷新功能

tooltips 提示

淺談高性能web前端技術棧——小白輕松做到減少HTTP請求

案例學習總結：原生JS實現表格排序

最新活動