基于Celery的分布式爬蟲管理平臺: Crawlab

legendaryedu 發布于2019-07-31 10:08 / 3248人閱讀

摘要：基于的爬蟲分布式爬蟲管理平臺，支持多種編程語言以及多種爬蟲框架。后臺程序會自動發現這些爬蟲項目并儲存到數據庫中。每一個節點需要啟動應用來支持爬蟲部署。任務將以環境變量的形式存在于爬蟲任務運行的進程中，并以此來關聯抓取數據。

Crawlab

基于Celery的爬蟲分布式爬蟲管理平臺，支持多種編程語言以及多種爬蟲框架。

Github: https://github.com/tikazyq/crawlab

截圖首頁

爬蟲列表

爬蟲詳情 - 概覽

任務詳情 - 抓取結果

架構

Crawlab的架構跟Celery非常相似，但是加入了包括前端、爬蟲、Flower在內的額外模塊，以支持爬蟲管理的功能。

節點

節點其實就是Celery中的Worker。一個節點運行時會連接到一個任務隊列（例如Redis）來接收和運行任務。所有爬蟲需要在運行時被部署到節點上，用戶在部署前需要定義節點的IP地址和端口。

爬蟲

自動發現

在config.py文件中，修改變量PROJECT_SOURCE_FILE_FOLDER作為爬蟲項目所在的目錄。Crawlab后臺程序會自動發現這些爬蟲項目并儲存到數據庫中。是不是很方便？

部署爬蟲

所有爬蟲需要在抓取前被部署當相應當節點中。在"爬蟲詳情"頁面點擊"Deploy"按鈕，爬蟲將被部署到所有有效到節點中。

運行爬蟲

部署爬蟲之后，你可以在"爬蟲詳情"頁面點擊"Run"按鈕來啟動爬蟲。一個爬蟲任務將被觸發，你可以在任務列表頁面中看到這個任務。

任務

任務被觸發并被節點執行。用戶可以在任務詳情頁面中看到任務到狀態、日志和抓取結果。

后臺應用

這是一個Flask應用，提供了必要的API來支持常規操作，例如CRUD、爬蟲部署以及任務運行。每一個節點需要啟動Flask應用來支持爬蟲部署。運行python manage.py app或python ./bin/run_app.py來啟動應用。

中間者

中間者跟Celery中定義的一樣，作為運行異步任務的隊列。

前端

前端其實就是一個基于Vue-Element-Admin的單頁應用。其中重用了很多Element-UI的控件來支持相應的展示。

數據關聯

任務是利用python的subprocess模塊中的Popen來實現的。任務ID將以環境變量CRAWLAB_TASK_ID的形式存在于爬蟲任務運行的進程中，并以此來關聯抓取數據。

在你的爬蟲程序中，你需要將CRAWLAB_TASK_ID的值以task_id作為可以存入數據庫中。這樣Crawlab就直到如何將爬蟲任務與抓取數據關聯起來了。當前，Crawlab只支持MongoDB。

import os
from pymongo import MongoClient

MONGO_HOST = "192.168.99.100"
MONGO_PORT = 27017
MONGO_DB = "crawlab_test"

# scrapy example in the pipeline
class JuejinPipeline(object):
    mongo = MongoClient(host=MONGO_HOST, port=MONGO_PORT)
    db = mongo[MONGO_DB]
    col_name = os.environ.get("CRAWLAB_COLLECTION")
    if not col_name:
        col_name = "test"
    col = db[col_name]

    def process_item(self, item, spider):
        item["task_id"] = os.environ.get("CRAWLAB_TASK_ID")
        self.col.save(item)
        return item

與其他框架比較

限制以及有一些爬蟲管理框架了，因此為啥還要用Crawlab？

因為很多現有當平臺都依賴于Scrapyd，限制了爬蟲的編程語言以及框架，爬蟲工程師只能用scrapy和python。當然，scrapy是非常優秀的爬蟲框架，但是它不能做一切事情。

Crawlab使用起來很方便，也很通用，可以適用于幾乎任何主流語言和框架。它還有一個精美的前端界面，讓用戶可以方便的管理和運行爬蟲。

框架	類型	分布式	前端	依賴于Scrapyd
Crawlab	管理平臺	Y	Y	N
Gerapy	管理平臺	Y	Y	Y
SpiderKeeper	管理平臺	Y	Y	Y
ScrapydWeb	管理平臺	Y	Y	Y
Scrapyd	網絡服務	Y	N	N/A

TODOs

后端

[ ] 文件管理

[ ] MySQL數據庫支持

[ ] 重跑任務

[ ] 節點監控

[ ] 更多爬蟲例子

前端

[ ] 任務數據統計

[ ] 表格過濾

[ ] 多語言支持 (中文)

[ ] 登錄和用戶管理

[ ] 全局搜索

歡迎大家來加入Crawlab開發交流群

云服務器 GPU云服務器基于云計算的平臺基于物聯網的云平臺基于大數據平臺的應用服務基于云計算的電子政務公共平臺

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/43303.html

手把手教你如何用Crawlab構建技術文章聚合平臺(一)

摘要：本文將介紹如何使用和抓取主流的技術博客文章，然后用搭建一個小型的技術文章聚合平臺。是谷歌開源的基于和的自動化測試工具，可以很方便的讓程序模擬用戶的操作，對瀏覽器進行程序化控制。相對于，是新的開源項目，而且是谷歌開發，可以使用很多新的特性。背景說到爬蟲，大多數程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯，而且有很強大的生態圈，有gerapy等優秀的可視化界面。但...

LinkedME2016 2019-08-23 15:57 評論0 收藏0
手把手教你如何用Crawlab構建技術文章聚合平臺(一)

摘要：本文將介紹如何使用和抓取主流的技術博客文章，然后用搭建一個小型的技術文章聚合平臺。是谷歌開源的基于和的自動化測試工具，可以很方便的讓程序模擬用戶的操作，對瀏覽器進行程序化控制。相對于，是新的開源項目，而且是谷歌開發，可以使用很多新的特性。背景說到爬蟲，大多數程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯，而且有很強大的生態圈，有gerapy等優秀的可視化界面。但...

Jeffrrey 2019-07-31 10:10 評論0 收藏0
爬蟲平臺Crawlab v0.2發布

摘要：是一個專注于爬蟲的集成了爬蟲管理任務調度任務監控數據分析等模塊的分布式爬蟲管理平臺，非常適合對爬蟲管理爬蟲工程化有要求的開發者及企業。從目前開源的框架來看，大部分爬蟲平臺是以為核心，因此只能支持框架的爬蟲，而不僅支持，還支持其他框架的爬蟲。 showImg(https://segmentfault.com/img/remote/1460000019143107?w=2559&h=112...

yiliang 2019-07-31 10:24 評論0 收藏0
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

摘要：前言開發爬蟲是一件有趣的事情。的可配置爬蟲是基于的，因此天生是支持并發的。遵守協議這個默認是開啟的。的可配置爬蟲降低了爬蟲的開發時間，增加了爬蟲開發效率，完善了工程化水平，將爬蟲工程師從日常的繁瑣配置工作中解放出來。前言開發爬蟲是一件有趣的事情。寫一個程序，對感興趣的目標網站發起HTTP請求，獲取HTML，解析HTML，提取數據，將數據保存到數據庫或者存為CSV、JSON等格式，再...

sushi 2019-07-31 10:28 評論0 收藏0
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

摘要：前言開發爬蟲是一件有趣的事情。的可配置爬蟲是基于的，因此天生是支持并發的。的可配置爬蟲降低了爬蟲的開發時間，增加了爬蟲開發效率，完善了工程化水平，將爬蟲工程師從日常的繁瑣配置工作中解放出來。前言開發爬蟲是一件有趣的事情。寫一個程序，對感興趣的目標網站發起HTTP請求，獲取HTML，解析HTML，提取數據，將數據保存到數據庫或者存為CSV、JSON等格式，再用自己熟悉的語言例如Python對...

YorkChen 2019-05-27 17:40 評論0 收藏0

發表評論

登陸后可評論

0條評論

legendaryedu

男|高級講師

我要關注我要私信

TA的文章

四·C語言之·函數全方位理解

閱讀 4361·2021-11-22 09:34
C++入門string類常用接口函數介紹 + 進階【模擬實現string接口函數】

閱讀 2690·2021-11-12 10:36
Wikihost(微基主機)：洛杉磯聯通CU AS9929/AS4837 VPS促銷，年付85折，免

閱讀 742·2021-08-18 10:23
balabala: dom 轉圖片場景和技術方案

閱讀 2636·2019-08-30 15:55
前端面試題（中）

閱讀 3111·2019-08-30 15:53
2019.7.15 - 7.21 我們 36人都學了些什么？

閱讀 2081·2019-08-30 15:44
一些實現垂直居中的方法

閱讀 1361·2019-08-29 15:37
使用css3實現骰子動畫

閱讀 1401·2019-08-29 13:04

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

基于Celery的分布式爬蟲管理平臺: Crawlab

自動發現

部署爬蟲

運行爬蟲

后端

前端

相關文章

**手把手教你如何用Crawlab構建技術文章聚合平臺(一)**

**手把手教你如何用Crawlab構建技術文章聚合平臺(一)**

**爬蟲平臺Crawlab v0.2發布**

[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

發表評論

0條評論

legendaryedu

男|高級講師

TA的文章

四·C語言之·函數全方位理解

C++入門string類常用接口函數介紹 + 進階【模擬實現string接口函數】

Wikihost(微基主機)：洛杉磯聯通CU AS9929/AS4837 VPS促銷，年付85折，免

balabala: dom 轉圖片場景和技術方案

前端面試題（中）

2019.7.15 - 7.21 我們 36人都學了些什么？

一些實現垂直居中的方法

使用css3實現骰子動畫

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

基于Celery的分布式爬蟲管理平臺: Crawlab

自動發現

部署爬蟲

運行爬蟲

后端

前端

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！