国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python3 爬蟲 scrapy框架 爬取小說網站數據

王陸寬 / 1086人閱讀

摘要:上次用寫的爬蟲速度很感人,今天打算用框架來實現,看看速度如何。

上次用requests寫的爬蟲速度很感人,今天打算用scrapy框架來實現,看看速度如何。

爬蟲步驟

第一步,安裝scrapy,執行一下命令

pip install Scrapy

第二步,創建項目,執行一下命令

scrapy startproject novel

第三步,編寫spider文件,文件存放位置novel/spiders/toscrape-xpath.py,內容如下

# -*- coding: utf-8 -*-
import scrapy


class ToScrapeSpiderXPath(scrapy.Spider):
    # 爬蟲的名字
    name = "novel"
    # 爬蟲啟始url
    start_urls = [
        "https://www.xbiquge6.com/0_638/1124120.html",
    ]

    def parse(self, response):
        # 定義存儲的數據格式
        yield {
            "text": response.xpath("http://div[@class="bookname"]/h1[1]/text()").extract_first(),
            "content": response.xpath("http://div[@id="content"]/text()").extract(),
            # "author": quote.xpath(".//small[@class="author"]/text()").extract_first(),
            # "tags": quote.xpath(".//div[@class="tags"]/a[@class="tag"]/text()").extract()
        }
        # 下一章的鏈接
        next_page_url = response.xpath("http://div[@class="bottem1"]/a[3]/@href").extract_first()
        # 如果下一章的鏈接不等于首頁 則爬取url內容  ps:最后一章的下一章鏈接為首頁
        if next_page_url != "https://www.xbiquge6.com/0_638/":
            yield scrapy.Request(response.urljoin(next_page_url))
總結

框架用時:23分,比requests快三倍!awesmome!xpath也蠻好用的,繼續學習,歡迎交流。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/42722.html

相關文章

  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 23個Python爬蟲開源項目代碼,包含微信、淘寶、豆瓣、知乎、微博等

    摘要:今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評論0 收藏0
  • Python3網絡爬蟲實戰---10、爬蟲框架的安裝:PySpider、Scrapy

    摘要:所以如果對爬蟲有一定基礎,上手框架是一種好的選擇。缺少包,使用安裝即可缺少包,使用安裝即可上一篇文章網絡爬蟲實戰爬取相關庫的安裝的安裝下一篇文章網絡爬蟲實戰爬蟲框架的安裝 上一篇文章:Python3網絡爬蟲實戰---9、APP爬取相關庫的安裝:Appium的安裝下一篇文章:Python3網絡爬蟲實戰---11、爬蟲框架的安裝:ScrapySplash、ScrapyRedis 我們直接...

    張憲坤 評論0 收藏0
  • scrapy入門

    摘要:快速入門首先,初步要做的就是快速構建一個爬蟲。然后把結果加入到一個隊列中。既然是入門,我們肯定是先關心我們需要的。 因為公司項目需求,需要做一個爬蟲。所以我一個python小白就被拉去做了爬蟲。花了兩周時間,拼拼湊湊總算趕出來了。所以寫個blog做個記錄。 快速入門 首先,初步要做的就是快速構建一個爬蟲。 配置環境 Mac下安裝 1) 直接從官網下載 python下載官網 2) 是通過...

    CrazyCodes 評論0 收藏0
  • Scrapy 框架入門簡介

    摘要:解析的方法,每個初始完成下載后將被調用,調用的時候傳入從每一個傳回的對象來作為唯一參數,主要作用如下負責解析返回的網頁數據,提取結構化數據生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站數據、提取結構性數據而編寫的應用框架,用途非常廣泛。 框架的力量,用戶只需要定制開發幾個模塊就可以輕松的實現一個爬蟲,用來抓取網頁內容以及各種圖片,非常...

    Coding01 評論0 收藏0

發表評論

0條評論

王陸寬

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<