摘要:前言在公司一部分業(yè)務(wù)是爬蟲(chóng)相關(guān)了,有涉及到登錄,驗(yàn)證碼,也有國(guó)外的大社交網(wǎng)站。雖然是,但是在爬取大量網(wǎng)站可能需要用分布式的爬蟲(chóng),當(dāng)然也有操作流程圖指定一個(gè)起始后,就可以根據(jù)以上原理圖進(jìn)行工作了。
前言
在公司一部分業(yè)務(wù)是爬蟲(chóng)相關(guān)了,有涉及到登錄,驗(yàn)證碼,也有國(guó)外的4大社交網(wǎng)站。所以記錄下
scrapy 是什么scrapy 是一個(gè)異步爬蟲(chóng)框架,使用它,可以屏蔽很多復(fù)雜的底層設(shè)計(jì),只需要解析下載下來(lái)的頁(yè)面,更多了我們需要關(guān)注的是目標(biāo)網(wǎng)站/頁(yè)面爬取的難易程度,該怎么來(lái)實(shí)現(xiàn)它。雖然是,但是在爬取大量網(wǎng)站可能需要 用分布式的爬蟲(chóng),當(dāng)然scrapy 也有
操作流程圖指定一個(gè)起始url后,scrapy就可以根據(jù)以上原理圖進(jìn)行工作了。一個(gè)最簡(jiǎn)單的頁(yè)面,指定頁(yè)面的url進(jìn)行第一次請(qǐng)求,經(jīng)過(guò)引擎,交給調(diào)度器,然后調(diào)度器再返回給引擎,去下載這個(gè)頁(yè)面,拿到這個(gè)頁(yè)面就可以進(jìn)行解析了。 這里明顯看的出來(lái)繞了一個(gè)圈子,如果最簡(jiǎn)單的的頁(yè)面,這樣子會(huì)發(fā)現(xiàn)多了調(diào)度這一步。但是一般在實(shí)際業(yè)務(wù)中,特別是分布式爬蟲(chóng),會(huì)有很多url 需要爬取,而且一些url是動(dòng)態(tài)添加到待爬隊(duì)列的,
我們將所有的待爬都在調(diào)度器進(jìn)行分配,當(dāng)然這里也有其他操作,比如,一個(gè)url已經(jīng)調(diào)度過(guò),那么會(huì)進(jìn)行標(biāo)識(shí),做到不再重復(fù)爬取。
scrapy 默認(rèn)的隊(duì)列
SCHEDULER_DISK_QUEUE = "scrapy.squeues.PickleLifoDiskQueue" SCHEDULER_MEMORY_QUEUE = "scrapy.squeues.LifoMemoryQueue" SCHEDULER_PRIORITY_QUEUE = "queuelib.PriorityQueue"
一般我們不關(guān)心這個(gè)隊(duì)列結(jié)構(gòu),但是在做分布式時(shí)這個(gè)隊(duì)列就需要替換
scrapy_redisscrapy 本身是異步,但是不支持分布式爬取。 要做到分布式爬取,那么需要一個(gè)公共的待爬隊(duì)列
scrapy_redis 需要制定隊(duì)列結(jié)構(gòu),可在 SpiderQueue,SpiderStack,
SpiderPriorityQueue 中選者一個(gè),形如
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"更多知識(shí)
《Learning Scrapy》(中文版)0 序言
....以后再增加
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41671.html
摘要:好啦一切準(zhǔn)備工作就緒,現(xiàn)在開(kāi)始安裝庫(kù)安裝成功后,安裝就簡(jiǎn)單了,在命令提示符窗口直接輸入命令回車(chē)現(xiàn)在一切都搞定了,可以新建一個(gè)測(cè)試,敲一個(gè)基于框架的爬蟲(chóng)程序咯。 最近忽然有了想要學(xué)習(xí)python爬蟲(chóng)的想法,但是首先需要安裝工具。python安裝倒是很輕松,只要傻瓜式一鍵安裝即可,但是在Windows下安裝scrapy倒不是件容易的事情。言歸正傳,說(shuō)下我從昨天下午到今天上午安裝的步驟: 1...
摘要:簡(jiǎn)介爬蟲(chóng)這個(gè)東西我就不多做介紹了,總之是一個(gè)很好用的爬蟲(chóng)庫(kù),且關(guān)于也有較多的教程。這篇文章記錄一下我個(gè)人的項(xiàng)目規(guī)劃和天坑心得。然后執(zhí)行就會(huì)自動(dòng)去爬數(shù)據(jù)了。常用配置這里要結(jié)合一些原因來(lái)進(jìn)行說(shuō)明。 簡(jiǎn)介 scrapy爬蟲(chóng)這個(gè)東西我就不多做介紹了,總之是一個(gè)很好用的Python爬蟲(chóng)庫(kù),且關(guān)于scrapy也有較多的教程。這篇文章記錄一下我個(gè)人的項(xiàng)目規(guī)劃和天坑心得。 通常來(lái)說(shuō),我們執(zhí)行了scra...
摘要:爬爬們,如果你已經(jīng)開(kāi)始部署項(xiàng)目了,那么你肯定也已經(jīng)寫(xiě)好了完整的爬蟲(chóng)項(xiàng)目,恭喜你,你很優(yōu)秀今天忙了小半天的服務(wù)器部署,跟大家分享一些心得首先我們要有一臺(tái)服務(wù)器,不好意思,這是廢話,略過(guò)。。。。。 爬爬們,如果你已經(jīng)開(kāi)始部署項(xiàng)目了,那么你肯定也已經(jīng)寫(xiě)好了完整的爬蟲(chóng)項(xiàng)目,恭喜你,你很優(yōu)秀!**今天忙了小半天的服務(wù)器部署,跟大家分享一些心得~ 首先我們要有一臺(tái)服務(wù)器,不好意思,這是廢話,略過(guò)...
摘要:目標(biāo)選取了博客園,爬取了首頁(yè)的前頁(yè)文章,但是數(shù)據(jù)放在那一直沒(méi)去分析。為了避免對(duì)博客園造成壓力,爬蟲(chóng)代碼不公開(kāi)。注數(shù)據(jù)來(lái)源是年月日至月的博客園首頁(yè)文章。誰(shuí)是博客園最?lèi)?ài)的用戶(hù)最?lèi)?ài)的用戶(hù),在這里是按文章上首頁(yè)的數(shù)量來(lái)判斷的。 前言 之前折騰了一小段時(shí)間scrapy,覺(jué)得使用起來(lái)異常簡(jiǎn)單,然后打算練練手。目標(biāo)選取了博客園,爬取了首頁(yè)的前200頁(yè)文章,但是數(shù)據(jù)放在那一直沒(méi)去分析。趁著現(xiàn)在有閑心,...
閱讀 3511·2023-04-25 14:57
閱讀 2560·2021-11-22 14:56
閱讀 2079·2021-09-29 09:45
閱讀 1761·2021-09-22 15:53
閱讀 3313·2021-08-25 09:41
閱讀 896·2019-08-29 15:22
閱讀 3289·2019-08-29 13:22
閱讀 3122·2019-08-29 13:08