部署Scrapy分布式爬蟲項目

techstay 發布于2019-07-31 10:01 / 776人閱讀

摘要：以上示例代表當發現條或條以上的級別的時，自動停止當前任務，如果當前時間在郵件工作時間內，則同時發送通知郵件。

一、需求分析

初級用戶：

只有一臺開發主機

能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目，以及通過 Scrapyd JSON API 來控制爬蟲，感覺命令行操作太麻煩，希望能夠通過瀏覽器直接部署和運行項目

專業用戶：

有 N 臺云主機，通過 Scrapy-Redis 構建分布式爬蟲

希望集成身份認證

希望在頁面上直觀地查看所有云主機的運行狀態

希望能夠自由選擇部分云主機，批量部署和運行爬蟲項目，實現集群管理

希望自動執行日志分析，以及爬蟲進度可視化

希望在出現特定類型的異常日志時能夠及時通知用戶，包括自動停止當前爬蟲任務

二、動圖預覽

集群多節點部署項目和運行爬蟲：

三、安裝和配置

1、請先確保所有主機都已經安裝和啟動 Scrapyd，如果需要遠程訪問 Scrapyd，則需將 Scrapyd 配置文件中的 bind_address 修改為 bind_address = 0.0.0.0，然后重啟 Scrapyd。

2、開發主機或任一臺主機安裝 ScrapydWeb： pip install scrapydweb

3、運行命令 scrapydweb -h，將在當前工作目錄生成配置文件 scrapydweb_settings.py，可用于下文的自定義配置。

4、啟用 HTTP 基本認證：

ENABLE_AUTH = True
USERNAME = "username"
PASSWORD = "password"

5、添加 Scrapyd server，支持字符串和元組兩種配置格式，支持添加認證信息和分組/標簽：

SCRAPYD_SERVERS = [
 "127.0.0.1",
 # "username:password@localhost:6801#group",
 ("username", "password", "localhost", "6801", "group"),
]

6、通過運行命令 scrapydweb 啟動 ScrapydWeb

四、訪問 Web UI

通過瀏覽器訪問并登錄 http://127.0.0.1:5000

Overview 頁面自動輸出所有 Scrapyd server 的運行狀態

通過分組和過濾可以自由選擇若干臺 Scrapyd server，調用 Scrapyd 提供的所有 HTTP JSON API，實現一次操作，批量執行

五、部署項目

支持指定若干臺 Scrapyd server 部署項目

通過配置 SCRAPY_PROJECTS_DIR 指定 Scrapy 項目開發目錄，ScrapydWeb 將自動列出該路徑下的所有項目，選擇項目后即可自動打包和部署指定項目：

如果 ScrapydWeb 運行在遠程服務器上，除了通過當前開發主機上傳常規的 egg 文件，也可以將整個項目文件夾添加到 zip/tar/tar.gz 壓縮文件后直接上傳即可，無需手動打包：

六、運行爬蟲

通過下拉框直接選擇 project，version 和 spider

支持傳入 Scrapy settings 和 spider arguments

同樣支持指定若干臺 Scrapyd server 運行爬蟲

七、日志分析和可視化

默認情況下，ScrapydWeb 將在后臺定時自動讀取和分析 Scrapy log 文件并生成 Stats 頁面

爬蟲進度可視化

八、郵件通知

基于后臺定時讀取和分析 Scrapy log 文件，ScrapydWeb 將在滿足特定觸發器時發送通知郵件，郵件正文包含當前運行任務的統計信息。

1、添加郵箱帳號：

SMTP_SERVER = "smtp.qq.com"
SMTP_PORT = 465
SMTP_OVER_SSL = True
SMTP_CONNECTION_TIMEOUT = 10
?
FROM_ADDR = "username@qq.com"
EMAIL_PASSWORD = "password"
TO_ADDRS = ["username@qq.com"]

2、設置郵件工作時間和基本觸發器，以下示例代表：每隔1小時或某一任務完成時，并且當前時間是工作日的9點，12點和17點，ScrapydWeb 將會發送通知郵件。

EMAIL_WORKING_DAYS = [1, 2, 3, 4, 5]
EMAIL_WORKING_HOURS = [9, 12, 17]
ON_JOB_RUNNING_INTERVAL = 3600
ON_JOB_FINISHED = True

3、除了基本觸發器，ScrapydWeb 還提供了多種觸發器用于處理不同類型的 log，包括 "CRITICAL", "ERROR", "WARNING", "REDIRECT", "RETRY" 和 "IGNORE"等。

LOG_CRITICAL_THRESHOLD = 3
LOG_CRITICAL_TRIGGER_STOP = True
LOG_CRITICAL_TRIGGER_FORCESTOP = False
...
LOG_IGNORE_TRIGGER_FORCESTOP = False

以上示例代表：當發現3條或3條以上的 critical 級別的 log 時，ScrapydWeb 自動停止當前任務，如果當前時間在郵件工作時間內，則同時發送通知郵件。

九、GitHub 開源

活捉幾只官方大佬，趕緊前去圍觀吧，別忘了 Star 噢！

https://github.com/my8100/scrapydweb

GPU云服務器云服務器 scrapy分布式爬蟲 scrapy分布式爬蟲實例 scrapy 爬蟲爬蟲scrapy

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/43111.html

Scrapy-Cluster結合Spiderkeeper管理分布式爬蟲

摘要：分布式爬蟲，分發網址是基于地址。注意要使用管理同一個集群，爬蟲項目名稱須一致，同時集群中配置相同任務瀏覽器訪問啟動爬蟲時即可看見兩個集群配置，啟動同名爬蟲開始分布式爬蟲啟動分布式爬蟲后狀態 Scrapy-cluster 建設基于Scrapy-cluster庫的kafka-monitor可以實現分布式爬蟲 Scrapyd+Spiderkeeper實現爬蟲的可視化管理環境 IP...

bingo 2019-07-30 17:45 評論0 收藏0
如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目

摘要：支持一鍵部署項目到集群。添加郵箱帳號設置郵件工作時間和基本觸發器，以下示例代表每隔小時或當某一任務完成時，并且當前時間是工作日的點，點和點，將會發送通知郵件。除了基本觸發器，還提供了多種觸發器用于處理不同類型的，包括和等。 showImg(https://segmentfault.com/img/remote/1460000018772067?w=1680&h=869); 安裝和配置 ...

zsirfs 2019-07-30 18:34 評論0 收藏0
Python3網絡爬蟲實戰---14、部署相關庫的安裝：Scrapyrt、Gerapy

摘要：相關鏈接官方文檔安裝推薦使用安裝，命令如下命令執行完畢之后即可完成安裝。的安裝是一個分布式管理模塊，本節來介紹一下的安裝方式。如果沒有錯誤報出，則證明庫已經安裝好了。上一篇文章網絡爬蟲實戰部署相關庫下一篇文章網絡爬蟲實戰爬蟲基礎基本原理上一篇文章：Python3網絡爬蟲實戰---13、部署相關庫ScrapydClient、ScrapydAPI下一篇文章：Python3網絡爬蟲實戰--...

nihao 2019-07-31 10:34 評論0 收藏0
從0-1打造最強性能Scrapy爬蟲集群

摘要：包括爬蟲編寫爬蟲避禁動態網頁數據抓取部署分布式爬蟲系統監測共六個內容，結合實際定向抓取騰訊新聞數據，通過測試檢驗系統性能。 1 項目介紹本項目的主要內容是分布式網絡新聞抓取系統設計與實現。主要有以下幾個部分來介紹：（1）深入分析網絡新聞爬蟲的特點，設計了分布式網絡新聞抓取系統爬取策略、抓取字段、動態網頁抓取方法、分布式結構、系統監測和數據存儲六個關鍵功能。（2）結合程序代碼分解說...

vincent_xyb 2019-07-30 14:46 評論0 收藏0
利用 scrapy 集成社區爬蟲功能

摘要：為了方便用戶展示自己的社區資料，雨點兒網中增加了一個社區爬蟲功能。方案使用運行爬蟲鑒于項目當前的架構，準備使用來執行異步爬蟲。可以同時執行多個爬蟲，最大進程數可配，防止系統過載。尾歡迎使用我們的爬蟲功能來收集社交資料。序社區活躍度或者貢獻越來越受到重視，往往會作為獲得工作或者承接項目的加分項。為了方便用戶展示自己的社區資料，雨點兒網中增加了一個社區爬蟲功能。當前只爬取了用戶主頁上...

Yangyang 2019-06-26 16:57 評論0 收藏0