爬蟲平臺Crawlab v0.2發布

yiliang 發布于2019-07-31 10:24 / 1877人閱讀

摘要：是一個專注于爬蟲的集成了爬蟲管理任務調度任務監控數據分析等模塊的分布式爬蟲管理平臺，非常適合對爬蟲管理爬蟲工程化有要求的開發者及企業。從目前開源的框架來看，大部分爬蟲平臺是以為核心，因此只能支持框架的爬蟲，而不僅支持，還支持其他框架的爬蟲。

Crawlab是一個專注于爬蟲的集成了爬蟲管理、任務調度、任務監控、數據分析等模塊的分布式爬蟲管理平臺，非常適合對爬蟲管理、爬蟲工程化有要求的開發者及企業。對Crawlab還不了解的童鞋，請移步之前的文章:

分布式通用爬蟲管理平臺Crawlab

手把手教你如何用Crawlab構建技術文章聚合平臺(一)

手把手教你如何用Crawlab構建技術文章聚合平臺(二)

Crawlab的任務調度核心模塊是基于Celery的，因此天然支持分布式爬蟲、多節點抓取。Crawlab雖然是用python寫的，但爬蟲不局限于python爬蟲，理論上可兼容任何語言以及任何框架。從目前開源的框架來看，大部分爬蟲平臺是以scrapyd為核心，因此只能支持scrapy框架的爬蟲，而Crawlab不僅支持scrapy，還支持其他框架的爬蟲。

更新一覽 v0.2 已完成

[x] 基礎統計

[x] 數據分析（爬蟲）

[x] 網站信息

[x] 定時任務

[x] 修復bug

待開發

[ ] 用戶管理

[ ] 上傳爬蟲

[ ] 導出數據

[ ] 高級數據分析（網站、任務）

[ ] 更多爬蟲例子

[ ] 文件管理

截屏

基礎統計（爬蟲）

基礎統計（任務）

定時任務

網站信息

__Github__: tikazyq/crawlab

如果感覺Crawlab還不錯的話，請加作者微信拉入開發交流群，大家一起交流關于Crawlab的使用和開發。

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/43759.html

[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

摘要：前言開發爬蟲是一件有趣的事情。的可配置爬蟲是基于的，因此天生是支持并發的。遵守協議這個默認是開啟的。的可配置爬蟲降低了爬蟲的開發時間，增加了爬蟲開發效率，完善了工程化水平，將爬蟲工程師從日常的繁瑣配置工作中解放出來。前言開發爬蟲是一件有趣的事情。寫一個程序，對感興趣的目標網站發起HTTP請求，獲取HTML，解析HTML，提取數據，將數據保存到數據庫或者存為CSV、JSON等格式，再...

sushi 2019-07-31 10:28 評論0 收藏0
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的

摘要：前言開發爬蟲是一件有趣的事情。的可配置爬蟲是基于的，因此天生是支持并發的。的可配置爬蟲降低了爬蟲的開發時間，增加了爬蟲開發效率，完善了工程化水平，將爬蟲工程師從日常的繁瑣配置工作中解放出來。前言開發爬蟲是一件有趣的事情。寫一個程序，對感興趣的目標網站發起HTTP請求，獲取HTML，解析HTML，提取數據，將數據保存到數據庫或者存為CSV、JSON等格式，再用自己熟悉的語言例如Python對...

YorkChen 2019-05-27 17:40 評論0 收藏0
基于Celery的分布式爬蟲管理平臺: Crawlab

摘要：基于的爬蟲分布式爬蟲管理平臺，支持多種編程語言以及多種爬蟲框架。后臺程序會自動發現這些爬蟲項目并儲存到數據庫中。每一個節點需要啟動應用來支持爬蟲部署。任務將以環境變量的形式存在于爬蟲任務運行的進程中，并以此來關聯抓取數據。 Crawlab 基于Celery的爬蟲分布式爬蟲管理平臺，支持多種編程語言以及多種爬蟲框架。 Github: https://github.com/tikazyq/...

legendaryedu 2019-07-31 10:08 評論0 收藏0
手把手教你如何用Crawlab構建技術文章聚合平臺(一)

摘要：本文將介紹如何使用和抓取主流的技術博客文章，然后用搭建一個小型的技術文章聚合平臺。是谷歌開源的基于和的自動化測試工具，可以很方便的讓程序模擬用戶的操作，對瀏覽器進行程序化控制。相對于，是新的開源項目，而且是谷歌開發，可以使用很多新的特性。背景說到爬蟲，大多數程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯，而且有很強大的生態圈，有gerapy等優秀的可視化界面。但...

LinkedME2016 2019-08-23 15:57 評論0 收藏0
手把手教你如何用Crawlab構建技術文章聚合平臺(一)

摘要：本文將介紹如何使用和抓取主流的技術博客文章，然后用搭建一個小型的技術文章聚合平臺。是谷歌開源的基于和的自動化測試工具，可以很方便的讓程序模擬用戶的操作，對瀏覽器進行程序化控制。相對于，是新的開源項目，而且是谷歌開發，可以使用很多新的特性。背景說到爬蟲，大多數程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯，而且有很強大的生態圈，有gerapy等優秀的可視化界面。但...

Jeffrrey 2019-07-31 10:10 評論0 收藏0

發表評論

登陸后可評論

0條評論

yiliang

男|高級講師

我要關注我要私信

TA的文章

『學了就忘』Linux軟件包管理 — 45、yum源文件詳細說明

閱讀 2609·2021-11-17 17:00
Vue devtools工具安裝 Chrome安裝Vue devtools 教程步驟

閱讀 1863·2021-10-11 10:57
ReliableSite：美國服務器租用(紐約/邁阿密/洛杉磯);E5-1650v3/128GB/2

閱讀 3716·2021-09-09 11:33
一篇文章帶你了解如何用Planting 為測試工程師開發的部署框架

閱讀 911·2021-09-09 09:33
BFC深入理解

閱讀 3550·2019-08-30 14:20
好用的sublime text 插件(有空的時候持續更新)

閱讀 3311·2019-08-29 11:25
nginx 常用命令

閱讀 2796·2019-08-26 13:48
javascript高級程序設計（第三版）學習摘錄下

閱讀 734·2019-08-26 11:52

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！