摘要:是一個專注于爬蟲的集成了爬蟲管理任務調度任務監控數據分析等模塊的分布式爬蟲管理平臺,非常適合對爬蟲管理爬蟲工程化有要求的開發者及企業。從目前開源的框架來看,大部分爬蟲平臺是以為核心,因此只能支持框架的爬蟲,而不僅支持,還支持其他框架的爬蟲。
Crawlab是一個專注于爬蟲的集成了爬蟲管理、任務調度、任務監控、數據分析等模塊的分布式爬蟲管理平臺,非常適合對爬蟲管理、爬蟲工程化有要求的開發者及企業。對Crawlab還不了解的童鞋,請移步之前的文章:
分布式通用爬蟲管理平臺Crawlab
手把手教你如何用Crawlab構建技術文章聚合平臺(一)
手把手教你如何用Crawlab構建技術文章聚合平臺(二)
Crawlab的任務調度核心模塊是基于Celery的,因此天然支持分布式爬蟲、多節點抓取。Crawlab雖然是用python寫的,但爬蟲不局限于python爬蟲,理論上可兼容任何語言以及任何框架。從目前開源的框架來看,大部分爬蟲平臺是以scrapyd為核心,因此只能支持scrapy框架的爬蟲,而Crawlab不僅支持scrapy,還支持其他框架的爬蟲。
更新一覽 v0.2 已完成[x] 基礎統計
[x] 數據分析(爬蟲)
[x] 網站信息
[x] 定時任務
[x] 修復bug
待開發[ ] 用戶管理
[ ] 上傳爬蟲
[ ] 導出數據
[ ] 高級數據分析(網站、任務)
[ ] 更多爬蟲例子
[ ] 文件管理
截屏__Github__: tikazyq/crawlab
如果感覺Crawlab還不錯的話,請加作者微信拉入開發交流群,大家一起交流關于Crawlab的使用和開發。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43759.html
摘要:前言開發爬蟲是一件有趣的事情。的可配置爬蟲是基于的,因此天生是支持并發的。遵守協議這個默認是開啟的。的可配置爬蟲降低了爬蟲的開發時間,增加了爬蟲開發效率,完善了工程化水平,將爬蟲工程師從日常的繁瑣配置工作中解放出來。 前言 開發爬蟲是一件有趣的事情。寫一個程序,對感興趣的目標網站發起HTTP請求,獲取HTML,解析HTML,提取數據,將數據保存到數據庫或者存為CSV、JSON等格式,再...
摘要:前言開發爬蟲是一件有趣的事情。的可配置爬蟲是基于的,因此天生是支持并發的。的可配置爬蟲降低了爬蟲的開發時間,增加了爬蟲開發效率,完善了工程化水平,將爬蟲工程師從日常的繁瑣配置工作中解放出來。前言 開發爬蟲是一件有趣的事情。寫一個程序,對感興趣的目標網站發起HTTP請求,獲取HTML,解析HTML,提取數據,將數據保存到數據庫或者存為CSV、JSON等格式,再用自己熟悉的語言例如Python對...
摘要:基于的爬蟲分布式爬蟲管理平臺,支持多種編程語言以及多種爬蟲框架。后臺程序會自動發現這些爬蟲項目并儲存到數據庫中。每一個節點需要啟動應用來支持爬蟲部署。任務將以環境變量的形式存在于爬蟲任務運行的進程中,并以此來關聯抓取數據。 Crawlab 基于Celery的爬蟲分布式爬蟲管理平臺,支持多種編程語言以及多種爬蟲框架。 Github: https://github.com/tikazyq/...
摘要:本文將介紹如何使用和抓取主流的技術博客文章,然后用搭建一個小型的技術文章聚合平臺。是谷歌開源的基于和的自動化測試工具,可以很方便的讓程序模擬用戶的操作,對瀏覽器進行程序化控制。相對于,是新的開源項目,而且是谷歌開發,可以使用很多新的特性。 背景 說到爬蟲,大多數程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯,而且有很強大的生態圈,有gerapy等優秀的可視化界面。但...
摘要:本文將介紹如何使用和抓取主流的技術博客文章,然后用搭建一個小型的技術文章聚合平臺。是谷歌開源的基于和的自動化測試工具,可以很方便的讓程序模擬用戶的操作,對瀏覽器進行程序化控制。相對于,是新的開源項目,而且是谷歌開發,可以使用很多新的特性。 背景 說到爬蟲,大多數程序員想到的是scrapy這樣受人歡迎的框架。scrapy的確不錯,而且有很強大的生態圈,有gerapy等優秀的可視化界面。但...
閱讀 2609·2021-11-17 17:00
閱讀 1863·2021-10-11 10:57
閱讀 3716·2021-09-09 11:33
閱讀 911·2021-09-09 09:33
閱讀 3550·2019-08-30 14:20
閱讀 3311·2019-08-29 11:25
閱讀 2796·2019-08-26 13:48
閱讀 734·2019-08-26 11:52