摘要:可以控制包括核心,插件,及組件。默認并發請求的最大值。該選項可以用來限制爬取速度,減輕服務器壓力。默認下載器超時時間單位秒。默認保存項目中啟用的及其順序的字典。默認的最低級別。代理設置示例禁用
Settings
Scrapy設置(settings)提供了定制Scrapy組件的方法。可以控制包括核心(core),插件(extension),pipeline及spider組件。比如 設置Json Pipeliine、LOG_LEVEL等。
參考文檔:http://scrapy-chs.readthedocs...
BOT_NAME
默認: "scrapybot"
當您使用 startproject 命令創建項目時其也被自動賦值。
CONCURRENT_ITEMS
默認: 100
Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。
CONCURRENT_REQUESTS
默認: 16
Scrapy downloader 并發請求(concurrent requests)的最大值。
DEFAULT_REQUEST_HEADERS
默認: 如下
{ "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en", }
???????????????????????? Scrapy HTTP Request使用的默認header。
DEPTH_LIMIT
默認: 0
爬取網站最大允許的深度(depth)值。如果為0,則沒有限制。
DOWNLOAD_DELAY
默認: 0
下載器在下載同一個網站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕服務器壓力。同時也支持小數:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
默認情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 DOWNLOAD_DELAY 的結果作為等待間隔。
DOWNLOAD_TIMEOUT
默認: 180
下載器超時時間(單位: 秒)。
ITEM_PIPELINES
默認: {}
保存項目中啟用的pipeline及其順序的字典。該字典默認為空,值(value)任意,不過值(value)習慣設置在0-1000范圍內,值越小優先級越高。
ITEM_PIPELINES = { "mySpider.pipelines.SomethingPipeline": 300, "mySpider.pipelines.ItcastJsonPipeline": 800, }
LOG_ENABLED
默認: True
是否啟用logging。
LOG_ENCODING
默認: "utf-8"
logging使用的編碼。
LOG_LEVEL
默認: "DEBUG"
log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
默認: "Scrapy/VERSION (+http://scrapy.org)"
爬取的默認User-Agent,除非被覆蓋。
PROXIES: 代理設置
示例:
PROXIES = [ {"ip_port": "111.11.228.75:80", "password": ""}, {"ip_port": "120.198.243.22:80", "password": ""}, {"ip_port": "111.8.60.9:8123", "password": ""}, {"ip_port": "101.71.27.120:80", "password": ""}, {"ip_port": "122.96.59.104:80", "password": ""}, {"ip_port": "122.224.249.122:8088", "password":""}, ]
COOKIES_ENABLED = False
禁用Cookies
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/41419.html
摘要:提升篇之配置增加并發并發是指同時處理的的數量。其有全局限制和局部每個網站的限制。使用級別來報告這些信息。在進行通用爬取時并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲在內存中記錄的蹤跡,提高性能。 scrapy提升篇之配置 增加并發 并發是指同時處理的request的數量。其有全局限制和局部(每個網站)的限制。Scrapy默認的全局并發限制對同時爬取大量網站的情況并不適用,因此您需要...
摘要:很多人學習爬蟲的第一驅動力就是爬取各大網站的妹子圖片,比如比較有名的。最后我們只需要運行程序,即可執行爬取,程序運行命名如下完整代碼我已上傳到微信公眾號后臺,在癡海公眾號后臺回復即可獲取。本文首發于公眾號癡海,后臺回復即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...
摘要:坦克大戰上簡介上的坦克大戰相信大家都玩過有逃學玩坦克的可以自己默默的扣一個了我們現在長大了,學習游戲開發了。 寫在前面 上一篇(https://www.tech1024.cn/origi... )說了如何創建項目,并爬去網站內容,下面我們說一下如何保存爬去到的數據 開始爬取 創建Spider,上一篇我們已經創建了ImoocSpider,我們做一下修改,可以連續下一頁爬取。scrapyD...
摘要:安裝配置文件內容如下守護進程,用這個的原因實在是因為太脆弱了,一看不住就掛了安裝配置導入默認配置鏈接管理設置管理進程啟動創建文件內容如下啟動查看如一切正常常用命令查看狀態重新載入重啟任務可以更新配置檢查日志爬蟲部署部署項目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內容如下: [scrapyd] egg...
摘要:安裝配置文件內容如下守護進程,用這個的原因實在是因為太脆弱了,一看不住就掛了安裝配置導入默認配置鏈接管理設置管理進程啟動創建文件內容如下啟動查看如一切正常常用命令查看狀態重新載入重啟任務可以更新配置檢查日志爬蟲部署部署項目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內容如下: [scrapyd] egg...
閱讀 3338·2023-04-26 03:05
閱讀 1459·2019-08-30 13:09
閱讀 1908·2019-08-30 13:05
閱讀 887·2019-08-29 12:42
閱讀 1385·2019-08-28 18:18
閱讀 3447·2019-08-28 18:09
閱讀 513·2019-08-28 18:00
閱讀 1713·2019-08-26 12:10