国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Scrapy中的Reponse和它的子類(TextResponse、HtmlResponse、Xml

Ashin / 2272人閱讀

摘要:今天用爬取壁紙的時(shí)候絮叨了一些問題,記錄下來,供后世探討,以史為鑒。因?yàn)榫W(wǎng)站是動(dòng)態(tài)渲染的,所以選擇對(duì)接抓取網(wǎng)頁的方式和庫相似,都是直接模擬請(qǐng)求,而也不能抓取動(dòng)態(tài)渲染的網(wǎng)頁。

今天用scrapy爬取壁紙的時(shí)候(url:http://pic.netbian.com/4kmein...)絮叨了一些問題,記錄下來,供后世探討,以史為鑒。**

因?yàn)榫W(wǎng)站是動(dòng)態(tài)渲染的,所以選擇scrapy對(duì)接selenium(scrapy抓取網(wǎng)頁的方式和requests庫相似,都是直接模擬HTTP請(qǐng)求,而Scrapy也不能抓取JavaScript動(dòng)態(tài)渲染的網(wǎng)頁。)

所以在Downloader Middlewares中需要得到Request并且返回一個(gè)Response,問題出在Response,通過查看官方文檔發(fā)現(xiàn)class scrapy.http.Response(url[, status=200, headers=None, body=b"", flags=None, request=None]),隨即通過from scrapy.http import Response導(dǎo)入Response

輸入scrapy crawl girl
得到如下錯(cuò)誤:
*results=response.xpath("http://[@id="main"]/div[3]/ul/lia/img")
raise NotSupported("Response content isn"t text")
scrapy.exceptions.NotSupported: Response content isn"t text**
檢查相關(guān)代碼:

# middlewares.py
from scrapy import signals
from scrapy.http import Response
from scrapy.exceptions import IgnoreRequest
import selenium
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
class Pic4KgirlDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        try:
            self.browser=selenium.webdriver.Chrome()
            self.wait=WebDriverWait(self.browser,10)
            
            self.browser.get(request.url)
            self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#main > div.page > a:nth-child(10)")))
            return Response(url=request.url,status=200,request=request,body=self.browser.page_source.encode("utf-8"))
        #except:
            #raise IgnoreRequest()
        finally:
            self.browser.close()

推斷問題出在:
return Response(url=request.url,status=200,request=request,body=self.browser.page_source.encode("utf-8"))
查看Response類的定義發(fā)現(xiàn):

@property
    def text(self):
        """For subclasses of TextResponse, this will return the body
        as text (unicode object in Python 2 and str in Python 3)
        """
        raise AttributeError("Response content isn"t text")

    def css(self, *a, **kw):
        """Shortcut method implemented only by responses whose content
        is text (subclasses of TextResponse).
        """
        raise NotSupported("Response content isn"t text")

    def xpath(self, *a, **kw):
        """Shortcut method implemented only by responses whose content
        is text (subclasses of TextResponse).
        """
        raise NotSupported("Response content isn"t text")

說明Response類不可以被直接使用,需要被繼承重寫方法后才能使用

響應(yīng)子類:

**TextResponse對(duì)象**
class scrapy.http.TextResponse(url[, encoding[, ...]])
**HtmlResponse對(duì)象**
class scrapy.http.HtmlResponse(url[, ...])
**XmlResponse對(duì)象**
class scrapy.http.XmlResponse(url [,... ] )

舉例觀察TextResponse的定義
from scrapy.http import TextResponse
導(dǎo)入TextResponse
發(fā)現(xiàn)

class TextResponse(Response):

    _DEFAULT_ENCODING = "ascii"

    def __init__(self, *args, **kwargs):
        self._encoding = kwargs.pop("encoding", None)
        self._cached_benc = None
        self._cached_ubody = None
        self._cached_selector = None
        super(TextResponse, self).__init__(*args, **kwargs)

其中xpath方法已經(jīng)被重寫

@property
    def selector(self):
        from scrapy.selector import Selector
        if self._cached_selector is None:
            self._cached_selector = Selector(self)
        return self._cached_selector

    def xpath(self, query, **kwargs):
        return self.selector.xpath(query, **kwargs)

    def css(self, query):
        return self.selector.css(query)

所以用戶想要調(diào)用Response類,必須選擇調(diào)用其子類,并且重寫部分方法

Scrapy爬蟲入門教程十一 Request和Response(請(qǐng)求和響應(yīng))

scrapy文檔:https://doc.scrapy.org/en/lat...
中文翻譯文檔:https://blog.csdn.net/Inke88/...

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/43318.html

相關(guān)文章

  • Python網(wǎng)頁信息采集:使用PhantomJS采集淘寶天貓商品內(nèi)容

    摘要:,引言最近一直在看爬蟲框架,并嘗試使用框架寫一個(gè)可以實(shí)現(xiàn)網(wǎng)頁信息采集的簡單的小程序。本文主要介紹如何使用結(jié)合采集天貓商品內(nèi)容,文中自定義了一個(gè),用來采集需要加載的動(dòng)態(tài)網(wǎng)頁內(nèi)容。 showImg(https://segmentfault.com/img/bVyMnP); 1,引言 最近一直在看Scrapy 爬蟲框架,并嘗試使用Scrapy框架寫一個(gè)可以實(shí)現(xiàn)網(wǎng)頁信息采集的簡單的小程序。嘗試...

    z2xy 評(píng)論0 收藏0
  • Scrapy+Chromium+代理+selenium

    摘要:通常的解決辦法是通過抓包,然后查看信息,接著捕獲返回的消息。為了減少因?yàn)榘惭b環(huán)境所帶來的煩惱。代理因?yàn)槲覀円呀?jīng)用替換了。我們需要直接用來處理代理問題。根據(jù)上面這段代碼,我們也不難猜出解決代理的方法了。 上周說到scrapy的基本入門。這周來寫寫其中遇到的代理和js渲染的坑。 js渲染 js是爬蟲中畢竟麻煩處理的一塊。通常的解決辦法是通過抓包,然后查看request信息,接著捕獲ajax...

    Pocher 評(píng)論0 收藏0
  • scrapy 進(jìn)階使用

    摘要:下載器負(fù)責(zé)獲取頁面,然后將它們交給引擎來處理。內(nèi)置了一些下載器中間件,這些中間件將在后面介紹。下載器中間件下載器中間件可以在引擎和爬蟲之間操縱請(qǐng)求和響應(yīng)對(duì)象。爬蟲中間件與下載器中間件類似,啟用爬蟲中間件需要一個(gè)字典來配置。 前段時(shí)間我寫了一篇《scrapy快速入門》,簡單介紹了一點(diǎn)scrapy的知識(shí)。最近我的搬瓦工讓墻了,而且我又學(xué)了一點(diǎn)mongodb的知識(shí),所以這次就來介紹一些scr...

    The question 評(píng)論0 收藏0
  • Scrapy 爬取七麥 app數(shù)據(jù)排行榜

    摘要:目錄前言創(chuàng)建項(xiàng)目創(chuàng)建創(chuàng)建解析付費(fèi)榜運(yùn)行爬取初始列表調(diào)用腳本獲取詳情前言熟悉之后,本篇文章帶大家爬取七麥數(shù)據(jù)的付費(fèi)應(yīng)用排行榜前名應(yīng)用。根據(jù)傳入的正則表達(dá)式對(duì)數(shù)據(jù)進(jìn)行提取,返回字符串列表。 目錄 前言 創(chuàng)建項(xiàng)目 創(chuàng)建Item 創(chuàng)建Spider 解析付費(fèi)榜 運(yùn)行爬取初始app列表 Selenium調(diào)用JS腳本 獲取app詳情 前言 熟悉Scrapy之后,本篇文章帶大家爬取七麥數(shù)據(jù)(h...

    kk_miles 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

Ashin

|高級(jí)講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<