国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

scrapy使用心得

sourcenode / 3185人閱讀

摘要:前言在公司一部分業(yè)務(wù)是爬蟲(chóng)相關(guān)了,有涉及到登錄,驗(yàn)證碼,也有國(guó)外的大社交網(wǎng)站。雖然是,但是在爬取大量網(wǎng)站可能需要用分布式的爬蟲(chóng),當(dāng)然也有操作流程圖指定一個(gè)起始后,就可以根據(jù)以上原理圖進(jìn)行工作了。

前言

在公司一部分業(yè)務(wù)是爬蟲(chóng)相關(guān)了,有涉及到登錄,驗(yàn)證碼,也有國(guó)外的4大社交網(wǎng)站。所以記錄下

scrapy 是什么

scrapy 是一個(gè)異步爬蟲(chóng)框架,使用它,可以屏蔽很多復(fù)雜的底層設(shè)計(jì),只需要解析下載下來(lái)的頁(yè)面,更多了我們需要關(guān)注的是目標(biāo)網(wǎng)站/頁(yè)面爬取的難易程度,該怎么來(lái)實(shí)現(xiàn)它。雖然是,但是在爬取大量網(wǎng)站可能需要 用分布式的爬蟲(chóng),當(dāng)然scrapy 也有

操作流程圖

指定一個(gè)起始url后,scrapy就可以根據(jù)以上原理圖進(jìn)行工作了。一個(gè)最簡(jiǎn)單的頁(yè)面,指定頁(yè)面的url進(jìn)行第一次請(qǐng)求,經(jīng)過(guò)引擎,交給調(diào)度器,然后調(diào)度器再返回給引擎,去下載這個(gè)頁(yè)面,拿到這個(gè)頁(yè)面就可以進(jìn)行解析了。 這里明顯看的出來(lái)繞了一個(gè)圈子,如果最簡(jiǎn)單的的頁(yè)面,這樣子會(huì)發(fā)現(xiàn)多了調(diào)度這一步。但是一般在實(shí)際業(yè)務(wù)中,特別是分布式爬蟲(chóng),會(huì)有很多url 需要爬取,而且一些url是動(dòng)態(tài)添加到待爬隊(duì)列的,
我們將所有的待爬都在調(diào)度器進(jìn)行分配,當(dāng)然這里也有其他操作,比如,一個(gè)url已經(jīng)調(diào)度過(guò),那么會(huì)進(jìn)行標(biāo)識(shí),做到不再重復(fù)爬取。

隊(duì)列

scrapy 默認(rèn)的隊(duì)列

SCHEDULER_DISK_QUEUE = "scrapy.squeues.PickleLifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeues.LifoMemoryQueue"
SCHEDULER_PRIORITY_QUEUE = "queuelib.PriorityQueue"

一般我們不關(guān)心這個(gè)隊(duì)列結(jié)構(gòu),但是在做分布式時(shí)這個(gè)隊(duì)列就需要替換

scrapy_redis

scrapy 本身是異步,但是不支持分布式爬取。 要做到分布式爬取,那么需要一個(gè)公共的待爬隊(duì)列

scrapy_redis 需要制定隊(duì)列結(jié)構(gòu),可在 SpiderQueue,SpiderStack,
SpiderPriorityQueue 中選者一個(gè),形如

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

更多知識(shí)

《Learning Scrapy》(中文版)0 序言

....以后再增加

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41671.html

相關(guān)文章

  • windows下安裝python+scrapy

    摘要:好啦一切準(zhǔn)備工作就緒,現(xiàn)在開(kāi)始安裝庫(kù)安裝成功后,安裝就簡(jiǎn)單了,在命令提示符窗口直接輸入命令回車(chē)現(xiàn)在一切都搞定了,可以新建一個(gè)測(cè)試,敲一個(gè)基于框架的爬蟲(chóng)程序咯。 最近忽然有了想要學(xué)習(xí)python爬蟲(chóng)的想法,但是首先需要安裝工具。python安裝倒是很輕松,只要傻瓜式一鍵安裝即可,但是在Windows下安裝scrapy倒不是件容易的事情。言歸正傳,說(shuō)下我從昨天下午到今天上午安裝的步驟: 1...

    dantezhao 評(píng)論0 收藏0
  • scrapy爬蟲(chóng)使用總結(jié)——技巧和天坑

    摘要:簡(jiǎn)介爬蟲(chóng)這個(gè)東西我就不多做介紹了,總之是一個(gè)很好用的爬蟲(chóng)庫(kù),且關(guān)于也有較多的教程。這篇文章記錄一下我個(gè)人的項(xiàng)目規(guī)劃和天坑心得。然后執(zhí)行就會(huì)自動(dòng)去爬數(shù)據(jù)了。常用配置這里要結(jié)合一些原因來(lái)進(jìn)行說(shuō)明。 簡(jiǎn)介 scrapy爬蟲(chóng)這個(gè)東西我就不多做介紹了,總之是一個(gè)很好用的Python爬蟲(chóng)庫(kù),且關(guān)于scrapy也有較多的教程。這篇文章記錄一下我個(gè)人的項(xiàng)目規(guī)劃和天坑心得。 通常來(lái)說(shuō),我們執(zhí)行了scra...

    vvpvvp 評(píng)論0 收藏0
  • 服務(wù)器上部署scrapy爬蟲(chóng)項(xiàng)目

    摘要:爬爬們,如果你已經(jīng)開(kāi)始部署項(xiàng)目了,那么你肯定也已經(jīng)寫(xiě)好了完整的爬蟲(chóng)項(xiàng)目,恭喜你,你很優(yōu)秀今天忙了小半天的服務(wù)器部署,跟大家分享一些心得首先我們要有一臺(tái)服務(wù)器,不好意思,這是廢話,略過(guò)。。。。。 爬爬們,如果你已經(jīng)開(kāi)始部署項(xiàng)目了,那么你肯定也已經(jīng)寫(xiě)好了完整的爬蟲(chóng)項(xiàng)目,恭喜你,你很優(yōu)秀!**今天忙了小半天的服務(wù)器部署,跟大家分享一些心得~ 首先我們要有一臺(tái)服務(wù)器,不好意思,這是廢話,略過(guò)...

    UnixAgain 評(píng)論0 收藏0
  • 爬取博客園首頁(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

    摘要:目標(biāo)選取了博客園,爬取了首頁(yè)的前頁(yè)文章,但是數(shù)據(jù)放在那一直沒(méi)去分析。為了避免對(duì)博客園造成壓力,爬蟲(chóng)代碼不公開(kāi)。注數(shù)據(jù)來(lái)源是年月日至月的博客園首頁(yè)文章。誰(shuí)是博客園最?lèi)?ài)的用戶(hù)最?lèi)?ài)的用戶(hù),在這里是按文章上首頁(yè)的數(shù)量來(lái)判斷的。 前言 之前折騰了一小段時(shí)間scrapy,覺(jué)得使用起來(lái)異常簡(jiǎn)單,然后打算練練手。目標(biāo)選取了博客園,爬取了首頁(yè)的前200頁(yè)文章,但是數(shù)據(jù)放在那一直沒(méi)去分析。趁著現(xiàn)在有閑心,...

    zilu 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<