摘要:布隆去重的優(yōu)點(diǎn)和缺點(diǎn)優(yōu)點(diǎn)相比于其它的數(shù)據(jù)結(jié)構(gòu),布隆過濾器在空間和時(shí)間方面都有巨大的優(yōu)勢(shì)。下載布隆過濾器文件,將其拷貝至包中。修改其函數(shù)按照分布式爬蟲部署步驟,繼續(xù)進(jìn)行即可使用布隆去重策略
scrapy-redis的布隆去重
- 為什么要使用布隆去重?
scrapy自帶去重機(jī)制,即將所需要爬取的網(wǎng)頁(yè)放在set中來達(dá)到去重的目的,但是在實(shí)際工作中,我們需要更新數(shù)據(jù)的時(shí)候往往不需要爬取已經(jīng)爬取過的頁(yè)面,這時(shí)候set去重就達(dá)不到目的了,會(huì)造成重復(fù)爬取url,所以我們要用到布隆去重。
- 布隆去重的優(yōu)點(diǎn)和缺點(diǎn)
優(yōu)點(diǎn)
相比于其它的數(shù)據(jù)結(jié)構(gòu),布隆過濾器在空間和時(shí)間方面都有巨大的優(yōu)勢(shì)。布隆過濾器存儲(chǔ)空間和插入/查詢時(shí)間都是常數(shù)。另外, Hash 函數(shù)相互之間沒有關(guān)系,方便由硬件并行實(shí)現(xiàn)。布隆過濾器不需要存儲(chǔ)元素本身,在某些對(duì)保密要求非常嚴(yán)格的場(chǎng)合有優(yōu)勢(shì)
缺點(diǎn)
但是布隆過濾器的缺點(diǎn)和優(yōu)點(diǎn)一樣明顯。誤算率(False Positive)是其中之一。隨著存入的元素?cái)?shù)量增加,誤算率隨之增加。但是如果元素?cái)?shù)量太少,則使用散列表足矣。
布隆去重的使用方法
打開項(xiàng)目,把scrapy_redis從環(huán)境文件中拷貝一份粘貼到scrapy項(xiàng)目中,這樣做的目的是為這個(gè)項(xiàng)目多帶帶配置去重方案
而環(huán)境中的scrapy_redis卻不會(huì)變,其他項(xiàng)目不用使用布隆去重方案。
下載 布隆過濾器py文件,將其拷貝至scrapy_redis包中。(這個(gè)py文件有很多大牛都有寫,課件也有和這個(gè)稍有不同原理相同)
修改scrapy_reids中的dupefilter文件,修改其去重策略。
from .BloomfilterOnRedis import BloomFilter
修改其 request_seen函數(shù)
if self.bf.isContains(fp):
return True
else:
self.bf.insert(fp) return False
按照分布式爬蟲部署步驟,繼續(xù)進(jìn)行即可使用布隆去重策略
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/42161.html
摘要:分布式爬蟲框架詳解隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會(huì)大眾參與社會(huì)生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架,主要是處理引擎與下載器之間的請(qǐng)求及響應(yīng)。 scrapy-redis分布式爬蟲框架詳解 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與應(yīng)用的普及,網(wǎng)絡(luò)作為信息的載體,已經(jīng)成為社會(huì)大眾參與社會(huì)生活的一種重要信息渠道。由于互聯(lián)網(wǎng)是開放的,每個(gè)人都可以在網(wǎng)絡(luò)上...
摘要:微型異步爬蟲框架基于的異步框架,搭建一個(gè)模塊化的微型異步爬蟲。可以對(duì)該爬蟲的布隆過濾器進(jìn)行配置,安裝中間件等。回調(diào)函數(shù)整個(gè)項(xiàng)目的主要實(shí)現(xiàn)在于回調(diào)函數(shù)的使用,利用異步請(qǐng)求得到響應(yīng)后馬上調(diào)用其請(qǐng)求綁定的回調(diào)函數(shù)來實(shí)現(xiàn)爬蟲的異步爬取。 Amipy Python微型異步爬蟲框架(A micro asynchronous Python website crawler framework) 基于...
閱讀 817·2021-11-18 10:02
閱讀 2527·2021-11-11 16:54
閱讀 2756·2021-09-02 09:45
閱讀 657·2019-08-30 12:52
閱讀 2784·2019-08-29 14:04
閱讀 2752·2019-08-29 12:39
閱讀 454·2019-08-29 12:27
閱讀 1892·2019-08-26 13:23