LogParser v0.8.0 發(fā)布：一個(gè)用于定期增量式解析 Scrapy 爬蟲(chóng)日志的 Pytho

Object 發(fā)布于2019-07-31 09:59 / 2341人閱讀

摘要：開(kāi)源安裝通過(guò)通過(guò)使用方法作為運(yùn)行請(qǐng)先確保當(dāng)前主機(jī)已經(jīng)安裝和啟動(dòng)通過(guò)命令啟動(dòng)訪問(wèn)假設(shè)運(yùn)行于端口訪問(wèn)以獲取某個(gè)爬蟲(chóng)任務(wù)的日志分析詳情配合實(shí)現(xiàn)爬蟲(chóng)進(jìn)度可視化詳見(jiàn)在代碼中使用

GitHub 開(kāi)源

my8100 / logparser

安裝

通過(guò) pip:

pip install logparser

通過(guò) git:

git clone https://github.com/my8100/logparser.git
cd logparser
python setup.py install

使用方法 作為 service 運(yùn)行

請(qǐng)先確保當(dāng)前主機(jī)已經(jīng)安裝和啟動(dòng) Scrapyd

通過(guò)命令 logparser 啟動(dòng) LogParser

訪問(wèn) http://127.0.0.1:6800/logs/stats.json (假設(shè) Scrapyd 運(yùn)行于端口 6800)

訪問(wèn) http://127.0.0.1:6800/logs/projectname/spidername/jobid.json 以獲取某個(gè)爬蟲(chóng)任務(wù)的日志分析詳情

配合 ScrapydWeb 實(shí)現(xiàn)爬蟲(chóng)進(jìn)度可視化

詳見(jiàn) my8100 / scrapydweb

在 Python 代碼中使用

In [1]: from logparser import parse

In [2]: log = """2018-10-23 18:28:34 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: demo)
   ...: 2018-10-23 18:29:41 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
   ...: {"downloader/exception_count": 3,
   ...:  "downloader/exception_type_count/twisted.internet.error.TCPTimedOutError": 3,
   ...:  "downloader/request_bytes": 1336,
   ...:  "downloader/request_count": 7,
   ...:  "downloader/request_method_count/GET": 7,
   ...:  "downloader/response_bytes": 1669,
   ...:  "downloader/response_count": 4,
   ...:  "downloader/response_status_count/200": 2,
   ...:  "downloader/response_status_count/302": 1,
   ...:  "downloader/response_status_count/404": 1,
   ...:  "dupefilter/filtered": 1,
   ...:  "finish_reason": "finished",
   ...:  "finish_time": datetime.datetime(2018, 10, 23, 10, 29, 41, 174719),
   ...:  "httperror/response_ignored_count": 1,
   ...:  "httperror/response_ignored_status_count/404": 1,
   ...:  "item_scraped_count": 2,
   ...:  "log_count/CRITICAL": 5,
   ...:  "log_count/DEBUG": 14,
   ...:  "log_count/ERROR": 5,
   ...:  "log_count/INFO": 75,
   ...:  "log_count/WARNING": 3,
   ...:  "offsite/domains": 1,
   ...:  "offsite/filtered": 1,
   ...:  "request_depth_max": 1,
   ...:  "response_received_count": 3,
   ...:  "retry/count": 2,
   ...:  "retry/max_reached": 1,
   ...:  "retry/reason_count/twisted.internet.error.TCPTimedOutError": 2,
   ...:  "scheduler/dequeued": 7,
   ...:  "scheduler/dequeued/memory": 7,
   ...:  "scheduler/enqueued": 7,
   ...:  "scheduler/enqueued/memory": 7,
   ...:  "start_time": datetime.datetime(2018, 10, 23, 10, 28, 35, 70938)}
   ...: 2018-10-23 18:29:42 [scrapy.core.engine] INFO: Spider closed (finished)"""

In [3]: d = parse(log, headlines=1, taillines=1)

In [4]: d
Out[4]:
OrderedDict([("head",
              "2018-10-23 18:28:34 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: demo)"),
             ("tail",
              "2018-10-23 18:29:42 [scrapy.core.engine] INFO: Spider closed (finished)"),
             ("first_log_time", "2018-10-23 18:28:34"),
             ("latest_log_time", "2018-10-23 18:29:42"),
             ("elapsed", "0:01:08"),
             ("first_log_timestamp", 1540290514),
             ("latest_log_timestamp", 1540290582),
             ("datas", []),
             ("pages", 3),
             ("items", 2),
             ("latest_matches",
              {"resuming_crawl": "",
               "latest_offsite": "",
               "latest_duplicate": "",
               "latest_crawl": "",
               "latest_scrape": "",
               "latest_item": "",
               "latest_stat": ""}),
             ("latest_crawl_timestamp", 0),
             ("latest_scrape_timestamp", 0),
             ("log_categories",
              {"critical_logs": {"count": 5, "details": []},
               "error_logs": {"count": 5, "details": []},
               "warning_logs": {"count": 3, "details": []},
               "redirect_logs": {"count": 1, "details": []},
               "retry_logs": {"count": 2, "details": []},
               "ignore_logs": {"count": 1, "details": []}}),
             ("shutdown_reason", "N/A"),
             ("finish_reason", "finished"),
             ("last_update_timestamp", 1547559048),
             ("last_update_time", "2019-01-15 21:30:48")])

In [5]: d["elapsed"]
Out[5]: "0:01:08"

In [6]: d["pages"]
Out[6]: 3

In [7]: d["items"]
Out[7]: 2

In [8]: d["finish_reason"]
Out[8]: "finished"

云服務(wù)器 GPU云服務(wù)器爬蟲(chóng)增量式抓取 scrapy 爬蟲(chóng) 爬蟲(chóng)scrapy scrapy爬蟲(chóng)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/43066.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Object

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

[C/C++ C++11]正則表達(dá)式

閱讀 1702·2021-11-25 09:43
window.open 打開(kāi)新窗口被攔截的解決方案

閱讀 2665·2019-08-30 15:53
canvas下的全屏問(wèn)題

閱讀 1808·2019-08-30 15:52
div寬度和高度固定，讓圖片鋪滿整個(gè)div而且不變形

閱讀 2898·2019-08-29 13:56
JavaScript面向?qū)ο缶幊獭狥unction類型

閱讀 3317·2019-08-26 12:12
Node.js 全局對(duì)象

閱讀 565·2019-08-23 17:58
vue-element-admin簡(jiǎn)化版

閱讀 2127·2019-08-23 16:59
每日 30 秒 ? 數(shù)組也會(huì)禿頂

閱讀 932·2019-08-23 16:21

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

LogParser v0.8.0 發(fā)布：一個(gè)用于定期增量式解析 Scrapy 爬蟲(chóng)日志的 Pytho

相關(guān)文章

**如何通過(guò) Scrapyd + ScrapydWeb 簡(jiǎn)單高效地部署和監(jiān)控分布式爬蟲(chóng)項(xiàng)目**

爬蟲(chóng)入門

爬蟲(chóng)入門

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

RancherOS v0.8.0發(fā)布：支持離線安裝，更佳部署體驗(yàn)

發(fā)表評(píng)論

0條評(píng)論

Object

男|高級(jí)講師

TA的文章

[C/C++ C++11]正則表達(dá)式

window.open 打開(kāi)新窗口被攔截的解決方案

canvas下的全屏問(wèn)題

div寬度和高度固定，讓圖片鋪滿整個(gè)div而且不變形

JavaScript面向?qū)ο缶幊獭狥unction類型

Node.js 全局對(duì)象

vue-element-admin簡(jiǎn)化版

每日 30 秒 ? 數(shù)組也會(huì)禿頂

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

LogParser v0.8.0 發(fā)布：一個(gè)用于定期增量式解析 Scrapy 爬蟲(chóng)日志的 Pytho

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！