国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

pyspider 實戰項目之爬取去哪兒

banana_pi / 1438人閱讀

摘要:現在我們用一個實戰項目,來進一步掌握框架的使用。此次的項目爬取的目標是去哪兒網,我要將所有攻略的作者標題出發日期人均費用攻略正文等保存下來,存儲到中。代表當前的爬取速率。

閱讀文本大概需要 13 分鐘。

通過之前的文章介紹,你現在應該對 pyspider 有了一定的認識。如果你還不清楚的話,可以再回顧下之前的文章「高效率爬蟲框架之 pyspider」。務必要對 pysdpier 有個整體認知,這樣你的學習效率才會高。
現在我們用一個實戰項目,來進一步掌握 pyspider 框架的使用。此次的項目爬取的目標是「去哪兒網」,我要將所有攻略的作者、標題、出發日期、人均費用、攻略正文等保存下來,存儲到 MongoDB 中。

1 準備工作

請確保已經安裝了 pyspider 和 PhantomJS,安裝好了 MongoDB 并正常運行服務,還需要安裝 PyMongo 庫。這些教程網上都有詳細資料,大家自行搜索。

2 啟動 pyspider

執行如下命令就可以啟動 pyspider:

pyspider all

運行效果:

這樣可以啟動 pyspider 的所有組件,包括 PhantomJS、ResultWorker、Processer、Fetcher、Scheduler、WebUI,這些都是 pysipder 運行必備的組件。最后一行輸出 WebUI 運行在 5000 端口上。可以打開瀏覽器,輸入鏈接 http://localhost:5000,這時我們會看到頁面。

此頁面便是 pyspider 的 WebUI,我們可以用它來管理項目、編寫代碼、在線調試、監控任務等

3 創建項目

新建一個項目,點擊右邊的 Create 按鈕,在彈出的浮窗里輸入項目的名稱和爬取的鏈接,再點擊 create 按鈕,這樣就成功創建了一個項目。

接下來會看到 pyspider 的項目編輯和調試頁面

左側就是代碼的調試頁面,點擊左側右上角的 run 單步調試爬蟲程序,在左側下半部分可以預覽當前的爬取頁面。右側是代碼編輯頁面,我們可以直接編輯代碼和保存代碼,不需要借助于 IDE。
注意右側,pyspider 已經幫我們生成了一段代碼。代碼如下所示:

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl("http://travel.qunar.com/travelbook/list.htm", callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc("a[href^="http"]").items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc("title").text(),
        }

這里的 Handler 就是 pyspider 爬蟲的主類,我們可以在此處定義爬取、解析、存儲的邏輯。整個爬蟲的功能只需要一個 Handler 即可完成。

接下來我們可以看到一個 crawl_config 屬性。我們可以將本項目的所有爬取配置統一定義到這里,如定義 Headers、設置代理等,配置之后全局生效。

然后,on_start() 方法是爬取入口,初始的爬取請求會在這里產生,該方法通過調用 crawl() 方法即可新建一個爬取請求,第一個參數是爬取的 URL,這里自動替換成我們定義的 URL。crawl() 方法還有一個 callback,它指定了這個頁面爬取成功后用哪個方法進行解析,代碼中指定為 index_page() 方法,即如果這個 URL 對應的頁面爬取成功了,那 Response 將交給 index_page() 方法解析。

index_page() 方法恰好接收這個 Response 參數,Response 對接了 pyquery。我們直接調用 doc() 方法傳入相應的 CSS 選擇器,就可以像 pyquery 一樣解析此頁面,代碼中默認是 a[href^="http"],也就是說該方法解析了頁面的所有鏈接,然后將鏈接遍歷,再次調用了 crawl() 方法生成了新的爬取請求,同時再指定了 callback 為 detail_page,意思是說這些頁面爬取成功了就調用 detail_page() 方法解析。這里,index_page() 實現了兩個功能,一是將爬取的結果進行解析,二是生成新的爬取請求。

detail_page() 同樣接收 Response 作為參數。detail_page() 抓取的就是詳情頁的信息,就不會生成新的請求,只對 Response 對象做解析,解析之后將結果以字典的形式返回。當然我們也可以進行后續處理,如將結果保存到數據庫。

接下來,我們改寫一下代碼來實現攻略的爬取。

4 爬取首頁

點擊左欄右上角的 run 按鈕,即可看到頁面下方 follows 便會出現一個標注,其中包含數字 1 ,這代表有新的爬取請求產生。

左欄左上角會出現當前 run 的配置文章,這里有一個 callback 為 on_start,這說明點擊 run 之后實際是執行了 on_start() 方法。在 on_start() 方法中,我們利用 crawl() 方法生成一個爬取請求,那下方 follows 部分的數字 1 就代表了這一個爬取請求。

點擊下方的 follows 按鈕,即可看到生成的爬取請求的鏈接。每個鏈接的右側還有一個箭頭按鈕。

點擊該箭頭,我們就可以對此鏈接進行爬取,也就是爬取攻略的首頁內容。

上方的 callback 已經變成了 index_page,這就代表當前運行了 index_page() 方法。index_page() 接收到的 response 參數就是剛才生成的第一個爬取請求的 Response 對象。index_page() 方法通過調用 doc() 方法,傳入提取所有 a 節點的 CSS 選擇器,然后獲取 a 節點的屬性 href,這樣實際上就是獲取了第一個爬取頁面中的所有鏈接。然后在 index_page() 方法里遍歷了所有鏈接,同時調用 crawl() 方法,就把這一個個的鏈接構造成新的爬取請求了。所以最下方 follows 按鈕部分有 231 的數字標記,這代表新生成了 231 個爬取請求,同時這些請求的 URL 都呈現在當前的頁面了。

再點擊下方的 web 按鈕,即可預覽當前爬取結果的頁面。

這里編輯器并不是很友好,顯示的頁面只有一小些,但并不會妨礙我們的抓取。當前看到的頁面結果和瀏覽器看到的幾乎是完全一致的,在這里我們可以方便地查看頁面請求的結果。

點擊 html 按鈕即可查看當前頁面的源代碼。

我們剛才在 index_page() 方法中提取了所有的鏈接并生成了新的爬取請求。但是很明顯要爬取的肯定不是所有鏈接,只需要攻略詳情的頁面鏈接就夠了,所以我們要修改一下當前 index_page() 里提取鏈接時的 CSS 選擇器。

在右側代碼選中要更改的區域,點擊左欄的右箭頭,此時在上方出現的標題的 CSS 選擇器就會被替換到右側代碼中。

這樣就成功完成了 CSS 選擇器的替換,非常方便。
重新點擊左欄右上角的 run 按鈕,即可重新執行 index_page() 方法。此時的 follows 就變成了 10 個,也就是說現在我們提取的只有當前頁面的 10 個攻略。

我們現在抓取的只是第一頁的內容,還需要抓取后續頁面,所以還需要一個爬取鏈接,即爬取下一頁的攻略列表頁面。我們再利用 crawl() 方法添加下一頁的爬取請求,在 index_page() 方法里面添加如下代碼,然后點擊 save() 保存。

next = response.doc(".next").attr.href
self.crawl(next, callback=self.index_page)

利用 CSS 選擇器選中下一頁的鏈接,獲取它的 href 屬性,也就獲取了頁面的 URL。然后將該 URL 傳給 crawl() 方法,同時指定回調函數,注意這里回調函數仍然指定為 index_page() 方法,因為下一頁的結構與此頁相同。

重新點擊 run 按鈕,這時就可以看到 11 個爬取請求。follows 按鈕上會顯示 11,這就代表我們成功添加了下一頁的爬取請求。

現在,索引列表頁面的解析過程我們就完成了。

5 爬取詳情頁

任意選取一個詳情頁進入,點擊前 10 個爬取請求的任意一個的右箭頭,執行詳情頁的爬取。

切換到 Web 頁面預覽效果,頁面下拉之后,頭圖正文中的一些圖片一直顯示加載中。

查看源碼,我們沒有看到 img 節點。

出現此現象的原因是 pyspider 默認發送 HTTP 請求,請求的 HTML 文檔本身就不包含 img 節點。但是在瀏覽器中我們看到了圖片,這是因為這張圖片是后期經過 JavaScrpit 出現的。那么,我們該如何獲取呢?

幸運的是,pyspider 內部對接了 PhatomJS,那么我們只需要修改一個參數即可。

我們將 index_page() 中生成抓取詳情頁的請求方法添加一個參數 fetch_type,改寫的 index_page() 變為如下內容:

def index_page(self, response):
        for each in response.doc("li > .tit > a").items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type="js")
        next = response.doc(".next").attr.href
        self.crawl(next, callback=self.index_page)

接下來,我們來試試它的抓取效果。

點擊左欄上方的左箭頭返回,重新調用 index_page() 方法生成新的爬取詳情頁的 Request。

再點擊新生成的詳情頁的 Request 的爬取按鈕,這時我們便可以看到頁面變成了這樣子。

圖片被成功渲染處理,這就是啟用了 PhantomJS 渲染后的結果。只需要添加一個 fetch_type 參數即可,這非常方便。
最后就是將詳情頁面中需要的信息提取處理。最終的 detail_page() 方法改寫如下:

  def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc("#booktitle").text(),
            "date": response.doc(".when .data").text(),
            "day": response.doc(".howlong .data").text(),
            "who": response.doc(".who .data").text(),
            "text": response.doc("#b_panel_schedule").text(),
            "image": response.doc(".cover_img").attr.src,
        }

我們分別提取了頁面的鏈接、標題、出行日期、出現天數、人物、攻略正文、頭圖信息,將這些信息構造成一個字典。
重新運行,即可發現輸出結果。

左欄中輸出了最終構造的字典信息,這就是一篇攻略的抓取結果。

6 啟動爬蟲

返回爬蟲的主頁面,將爬蟲的 status 設置成 DEBUG 或 RUNNING,點擊右側的 Run 按鈕即可開始爬取。

在最左側我們可以定義項目的分組,以方便管理。rate/burst 代表當前的爬取速率。rate 代表 1 秒發出多少個請求,burst 相當于流量控制中的令牌桶算法的令牌數,rate 和 burst 設置的越大,爬取速率越快,當然速率需要考慮本機性能和爬取過快被封的問題。process 中的 5m、1h、1d 指 的是最近 5 分、1 小時、1 天內的請求情況,all 代表所有的請求情況。請求由不同顏色表示、藍色的代表等待被執行的請求,綠色的代表成功的請求,黃色的代表請求失敗后等待重試的請求,紅色的代表失敗次數過多而被忽略的請求,這樣可以直觀知道爬取的進度和請求情況。

點擊 Active Tasks,即可查看最近請求的詳細狀況。

點擊 Result,即可查看所有的爬取結果。

點擊右上角的按鈕,即可獲取數據的 JSON、CSV 格式。

本文首發于公眾號「癡海」,每天分享 python 干貨,回復「1024」,你懂得。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41946.html

相關文章

  • Pyspider框架 —— Python爬蟲實戰爬取 V2EX 網站帖子

    摘要:背景一個國人編寫的強大的網絡爬蟲系統并帶有強大的。框架學習時走過的一些坑錯誤我所遇到的一些錯誤首先,本爬蟲目標使用框架爬取網站的帖子中的問題和內容,然后將爬取的數據保存在本地。修飾器,表示每天會執行一次,這樣就能抓到最新的帖子了。 背景: PySpider:一個國人編寫的強大的網絡爬蟲系統并帶有強大的WebUI。采用Python語言編寫,分布式架構,支持多種數據庫后端,強大的WebUI...

    codecraft 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 零基礎如何學爬蟲技術

    摘要:楚江數據是專業的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務,服務范圍涵蓋社交網絡電子商務分類信息學術研究等。 楚江數據是專業的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...

    KunMinX 評論0 收藏0
  • 寫這么多系列博客,怪不得找不到女朋友

    摘要:前提好幾周沒更新博客了,對不斷支持我博客的童鞋們說聲抱歉了。熟悉我的人都知道我寫博客的時間比較早,而且堅持的時間也比較久,一直到現在也是一直保持著更新狀態。 showImg(https://segmentfault.com/img/remote/1460000014076586?w=1920&h=1080); 前提 好幾周沒更新博客了,對不斷支持我博客的童鞋們說聲:抱歉了!。自己這段時...

    JerryWangSAP 評論0 收藏0
  • Python爬蟲學習路線

    摘要:以下這些項目,你拿來學習學習練練手。當你每個步驟都能做到很優秀的時候,你應該考慮如何組合這四個步驟,使你的爬蟲達到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學習不是一朝一夕的事情,建議多看看一些比較優秀的爬蟲的設計方案,比如說。 (一)如何學習Python 學習Python大致可以分為以下幾個階段: 1.剛上手的時候肯定是先過一遍Python最基本的知識,比如說:變量、數據結構、語法...

    liaoyg8023 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<