scrapy使用心得

sourcenode 發(fā)布于2019-07-30 16:25 / 3185人閱讀

摘要：前言在公司一部分業(yè)務(wù)是爬蟲(chóng)相關(guān)了，有涉及到登錄，驗(yàn)證碼，也有國(guó)外的大社交網(wǎng)站。雖然是，但是在爬取大量網(wǎng)站可能需要用分布式的爬蟲(chóng)，當(dāng)然也有操作流程圖指定一個(gè)起始后，就可以根據(jù)以上原理圖進(jìn)行工作了。

前言

在公司一部分業(yè)務(wù)是爬蟲(chóng)相關(guān)了，有涉及到登錄，驗(yàn)證碼，也有國(guó)外的4大社交網(wǎng)站。所以記錄下

scrapy 是什么

scrapy 是一個(gè)異步爬蟲(chóng)框架，使用它，可以屏蔽很多復(fù)雜的底層設(shè)計(jì)，只需要解析下載下來(lái)的頁(yè)面，更多了我們需要關(guān)注的是目標(biāo)網(wǎng)站/頁(yè)面爬取的難易程度，該怎么來(lái)實(shí)現(xiàn)它。雖然是，但是在爬取大量網(wǎng)站可能需要用分布式的爬蟲(chóng)，當(dāng)然scrapy 也有

操作流程圖

指定一個(gè)起始url后，scrapy就可以根據(jù)以上原理圖進(jìn)行工作了。一個(gè)最簡(jiǎn)單的頁(yè)面，指定頁(yè)面的url進(jìn)行第一次請(qǐng)求，經(jīng)過(guò)引擎，交給調(diào)度器，然后調(diào)度器再返回給引擎，去下載這個(gè)頁(yè)面，拿到這個(gè)頁(yè)面就可以進(jìn)行解析了。這里明顯看的出來(lái)繞了一個(gè)圈子，如果最簡(jiǎn)單的的頁(yè)面，這樣子會(huì)發(fā)現(xiàn)多了調(diào)度這一步。但是一般在實(shí)際業(yè)務(wù)中，特別是分布式爬蟲(chóng)，會(huì)有很多url 需要爬取，而且一些url是動(dòng)態(tài)添加到待爬隊(duì)列的，
我們將所有的待爬都在調(diào)度器進(jìn)行分配，當(dāng)然這里也有其他操作，比如，一個(gè)url已經(jīng)調(diào)度過(guò)，那么會(huì)進(jìn)行標(biāo)識(shí)，做到不再重復(fù)爬取。

隊(duì)列

scrapy 默認(rèn)的隊(duì)列

SCHEDULER_DISK_QUEUE = "scrapy.squeues.PickleLifoDiskQueue"
SCHEDULER_MEMORY_QUEUE = "scrapy.squeues.LifoMemoryQueue"
SCHEDULER_PRIORITY_QUEUE = "queuelib.PriorityQueue"

一般我們不關(guān)心這個(gè)隊(duì)列結(jié)構(gòu)，但是在做分布式時(shí)這個(gè)隊(duì)列就需要替換

scrapy_redis

scrapy 本身是異步，但是不支持分布式爬取。要做到分布式爬取，那么需要一個(gè)公共的待爬隊(duì)列

scrapy_redis 需要制定隊(duì)列結(jié)構(gòu)，可在 SpiderQueue，SpiderStack，
SpiderPriorityQueue 中選者一個(gè)，形如

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

更多知識(shí)

《Learning Scrapy》（中文版）0 序言

....以后再增加

GPU云服務(wù)器云服務(wù)器使用心得使用心得與技巧阿里云使用心得橙云vps使用心得

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/41671.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

sourcenode

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

ubuntu安裝tensorflow

閱讀 3511·2023-04-25 14:57
#yyds干貨盤(pán)點(diǎn)#設(shè)計(jì)模式之【單例模式】

閱讀 2560·2021-11-22 14:56
易探云：金秋上云節(jié),香港/美國(guó)/韓國(guó)云服務(wù)器最低9元;香港物理機(jī)/虛擬主機(jī)優(yōu)惠促銷(xiāo)

閱讀 2079·2021-09-29 09:45
有個(gè)云主機(jī)可以做什么-云主機(jī)能做什么？

閱讀 1761·2021-09-22 15:53
Virtono：夏季促銷(xiāo)，年付5折€23.7/年起，洛杉磯/達(dá)拉斯/紐約/羅馬尼亞等

閱讀 3313·2021-08-25 09:41
css百分比總結(jié)，自適應(yīng)布局

閱讀 896·2019-08-29 15:22
聽(tīng)說(shuō)2017你想寫(xiě)前端？

閱讀 3289·2019-08-29 13:22
前端web網(wǎng)站上中（左右）下布局(flex、calc)

閱讀 3122·2019-08-29 13:08

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy使用心得

相關(guān)文章

windows下安裝python+scrapy

scrapy爬蟲(chóng)使用總結(jié)——技巧和天坑

**服務(wù)器上部署scrapy爬蟲(chóng)項(xiàng)目**

爬取博客園首頁(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

發(fā)表評(píng)論

0條評(píng)論

sourcenode

男|高級(jí)講師

TA的文章

ubuntu安裝tensorflow

#yyds干貨盤(pán)點(diǎn)#設(shè)計(jì)模式之【單例模式】

易探云：金秋上云節(jié),香港/美國(guó)/韓國(guó)云服務(wù)器最低9元;香港物理機(jī)/虛擬主機(jī)優(yōu)惠促銷(xiāo)

有個(gè)云主機(jī)可以做什么-云主機(jī)能做什么？

Virtono：夏季促銷(xiāo)，年付5折€23.7/年起，洛杉磯/達(dá)拉斯/紐約/羅馬尼亞等

css百分比總結(jié)，自適應(yīng)布局

聽(tīng)說(shuō)2017你想寫(xiě)前端？

前端web網(wǎng)站上中（左右）下布局(flex、calc)

最新活動(dòng)