5、web爬蟲，scrapy模塊,解決重復ur——自動遞歸url

macg0406 發布于2019-07-31 10:33 / 3163人閱讀

摘要：百度云搜索搜網盤一般抓取過的不重復抓取，那么就需要記錄，判斷當前如果在記錄里說明已經抓取過了，如果不存在說明沒抓取過記錄可以是緩存，或者數據庫，如果保存數據庫按照以下方式加密建索引以便查詢原始保存表里應該至少有以上個字段加密建索引以便查詢字

【百度云搜索:http://bdy.lqkweb.com】

【搜網盤:http://www.swpan.cn】

一般抓取過的url不重復抓取，那么就需要記錄url，判斷當前URL如果在記錄里說明已經抓取過了，如果不存在說明沒抓取過

記錄url可以是緩存，或者數據庫，如果保存數據庫按照以下方式：

id　　 URL加密(建索引以便查詢) 　　原始URL

保存URL表里應該至少有以上3個字段
1、URL加密(建索引以便查詢)字段：用來查詢這樣速度快，
2、原始URL，用來給加密url做對比，防止加密不同的URL出現同樣的加密值

自動遞歸url

#?-*-?coding:?utf-8?-*-
import?scrapy???????#導入爬蟲模塊
from?scrapy.selector?import?HtmlXPathSelector??#導入HtmlXPathSelector模塊
from?scrapy.selector?import?Selector

class?AdcSpider(scrapy.Spider):
????name?=?"adc"????????????????????????????????????????#設置爬蟲名稱
????allowed_domains?=?["hao.360.cn"]
????start_urls?=?["https://hao.360.cn/"]

????def?parse(self,?response):

????????#這里做頁面的各種獲取以及處理

????????#遞歸查找url循環執行
????????hq_url?=?Selector(response=response).xpath("http://a/@href")???#查找到當前頁面的所有a標簽的href，也就是url
????????for?url?in?hq_url:????????????????????????????????????????#循環url
????????????yield?scrapy.Request(url=url,?callback=self.parse)????#每次循環將url傳入Request方法進行繼續抓取，callback執行parse回調函數，遞歸循環

????????#這樣就會遞歸抓取url并且自動執行了，但是需要在settings.py?配置文件中設置遞歸深度，DEPTH_LIMIT=3表示遞歸3層

這樣就會遞歸抓取url并且自動執行了，但是需要在settings.py?配置文件中設置遞歸深度，DEPTH_LIMIT=3表示遞歸3層

云服務器 GPU云服務器 scrapy 爬蟲爬蟲scrapy scrapy爬蟲 scrapy登錄爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/44025.html

scrapy-redis分布式爬蟲框架詳解

摘要：分布式爬蟲框架詳解隨著互聯網技術的發展與應用的普及，網絡作為信息的載體，已經成為社會大眾參與社會生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架，主要是處理引擎與下載器之間的請求及響應。 scrapy-redis分布式爬蟲框架詳解隨著互聯網技術的發展與應用的普及，網絡作為信息的載體，已經成為社會大眾參與社會生活的一種重要信息渠道。由于互聯網是開放的，每個人都可以在網絡上...

myeveryheart 2019-07-30 16:09 評論0 收藏0
Python-爬蟲工程師-面試總結

摘要：內存池機制提供了對內存的垃圾收集機制，但是它將不用的內存放到內存池而不是返回給操作系統。為了加速的執行效率，引入了一個內存池機制，用于管理對小塊內存的申請和釋放。注：答案一般在網上都能夠找到。1.對if __name__ == main的理解陳述2.python是如何進行內存管理的？3.請寫出一段Python代碼實現刪除一個list里面的重復元素4.Python里面如何拷貝一個對象？...

antz 2019-07-31 11:06 評論0 收藏0
爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

defcon 2019-07-30 17:07 評論0 收藏0