国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

scrapy-redis的布隆去重

jaysun / 1578人閱讀

摘要:布隆去重的優(yōu)點(diǎn)和缺點(diǎn)優(yōu)點(diǎn)相比于其它的數(shù)據(jù)結(jié)構(gòu),布隆過濾器在空間和時(shí)間方面都有巨大的優(yōu)勢(shì)。下載布隆過濾器文件,將其拷貝至包中。修改其函數(shù)按照分布式爬蟲部署步驟,繼續(xù)進(jìn)行即可使用布隆去重策略

scrapy-redis的布隆去重

- 為什么要使用布隆去重?

scrapy自帶去重機(jī)制,即將所需要爬取的網(wǎng)頁(yè)放在set中來達(dá)到去重的目的,但是在實(shí)際工作中,我們需要更新數(shù)據(jù)的時(shí)候往往不需要爬取已經(jīng)爬取過的頁(yè)面,這時(shí)候set去重就達(dá)不到目的了,會(huì)造成重復(fù)爬取url,所以我們要用到布隆去重。

- 布隆去重的優(yōu)點(diǎn)和缺點(diǎn)

優(yōu)點(diǎn)

相比于其它的數(shù)據(jù)結(jié)構(gòu),布隆過濾器在空間和時(shí)間方面都有巨大的優(yōu)勢(shì)。布隆過濾器存儲(chǔ)空間和插入/查詢時(shí)間都是常數(shù)。另外, Hash 函數(shù)相互之間沒有關(guān)系,方便由硬件并行實(shí)現(xiàn)。布隆過濾器不需要存儲(chǔ)元素本身,在某些對(duì)保密要求非常嚴(yán)格的場(chǎng)合有優(yōu)勢(shì)

缺點(diǎn)

但是布隆過濾器的缺點(diǎn)和優(yōu)點(diǎn)一樣明顯。誤算率(False Positive)是其中之一。隨著存入的元素?cái)?shù)量增加,誤算率隨之增加。但是如果元素?cái)?shù)量太少,則使用散列表足矣。

布隆去重的使用方法

打開項(xiàng)目,把scrapy_redis從環(huán)境文件中拷貝一份粘貼到scrapy項(xiàng)目中,這樣做的目的是為這個(gè)項(xiàng)目多帶帶配置去重方案

而環(huán)境中的scrapy_redis卻不會(huì)變,其他項(xiàng)目不用使用布隆去重方案。

下載 布隆過濾器py文件,將其拷貝至scrapy_redis包中。(這個(gè)py文件有很多大牛都有寫,課件也有和這個(gè)稍有不同原理相同)

修改scrapy_reids中的dupefilter文件,修改其去重策略。

from .BloomfilterOnRedis import BloomFilter

修改其 request_seen函數(shù)

if self.bf.isContains(fp):

return True

else:

self.bf.insert(fp)

return False

按照分布式爬蟲部署步驟,繼續(xù)進(jìn)行即可使用布隆去重策略

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/42161.html

相關(guān)文章

  • scrapy-redis分布式爬蟲框架詳解

    摘要:分布式爬蟲框架詳解隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會(huì)大眾參與社會(huì)生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架,主要是處理引擎與下載器之間的請(qǐng)求及響應(yīng)。 scrapy-redis分布式爬蟲框架詳解 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會(huì)大眾參與社會(huì)生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開放的,每個(gè)人都可以在網(wǎng)絡(luò)上...

    myeveryheart 評(píng)論0 收藏0
  • Python微型異步爬蟲框架

    摘要:微型異步爬蟲框架基于的異步框架,搭建一個(gè)模塊化的微型異步爬蟲。可以對(duì)該爬蟲的布隆過濾器進(jìn)行配置,安裝中間件等。回調(diào)函數(shù)整個(gè)項(xiàng)目的主要實(shí)現(xiàn)在于回調(diào)函數(shù)的使用,利用異步請(qǐng)求得到響應(yīng)后馬上調(diào)用其請(qǐng)求綁定的回調(diào)函數(shù)來實(shí)現(xiàn)爬蟲的異步爬取。 Amipy Python微型異步爬蟲框架(A micro asynchronous Python website crawler framework) 基于...

    z2xy 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<