摘要:新特性系統底層重構,規范包名采集線程白名單過濾優化,避免冗余失敗重試增強渲染方式采集能力,原生新提供,支持以方式采集頁面數據支持采集非頁面,如接口等,直接輸出響應數據選擇即可簡介是一個分布式爬蟲框架。默認提供單機版爬蟲。
v1.2.2 新特性
1、系統底層重構,規范包名;
2、采集線程白名單過濾優化,避免冗余失敗重試;
3、增強JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum + phantomjs" 方式采集頁面數據;
4、支持采集非Web頁面,如JSON接口等,直接輸出響應數據;選擇 "NonPageParser" 即可;
簡介XXL-CRAWLER 是一個分布式爬蟲框架。一行代碼開發一個分布式爬蟲,擁有"多線程、異步、IP動態代理、分布式、JS渲染"等特性;
特性1、簡潔:API直觀簡潔,可快速上手;
2、輕量級:底層實現僅強依賴jsoup,簡潔高效;
3、模塊化:模塊化的結構設計,可輕松擴展
4、面向對象:支持通過注解,方便的映射頁面數據到PageVO對象,底層自動完成PageVO對象的數據抽取和封裝返回;單個頁面支持抽取一個或多個PageVO
5、多線程:線程池方式運行,提高采集效率;
6、分布式支持:通過擴展 "RunData" 模塊,并結合Redis或DB共享運行數據可實現分布式。默認提供LocalRunData單機版爬蟲。
7、JS渲染:通過擴展 "PageLoader" 模塊,支持采集JS動態渲染數據。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多種實現,支持自由擴展其他實現。
8、失敗重試:請求失敗后重試,并支持設置重試次數;
9、代理IP:對抗反采集策略規則WAF;
10、動態代理:支持運行時動態調整代理池,以及自定義代理池路由策略;
11、異步:支持同步、異步兩種方式運行;
12、擴散全站:支持以現有URL為起點擴散爬取整站;
13、去重:防止重復爬取;
14、URL白名單:支持設置頁面白名單正則,過濾URL;
15、自定義請求信息,如:請求參數、Cookie、Header、UserAgent輪詢、Referrer等;
16、動態參數:支持運行時動態調整請求參數;
17、超時控制:支持設置爬蟲請求的超時時間;
18、主動停頓:爬蟲線程處理完頁面之后進行主動停頓,避免過于頻繁被攔截;
文檔地址中文文檔
技術交流社區交流
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/71834.html
摘要:版本新特性渲染支持渲染方式采集數據,可參考爬蟲示例抽象并設計,方便自定義和擴展頁面加載邏輯,如渲染等。默認提供單機版爬蟲。渲染通過擴展模塊,支持采集動態渲染數據。原生提供快速推薦和較慢渲染兩種實現,支持自由擴展其他實現。 版本新特性 1、JS渲染:支持JS渲染方式采集數據,可參考 爬蟲示例6; 2、抽象并設計PageLoader,方便自定義和擴展頁面加載邏輯,如JS渲染等。底層提供 ...
摘要:面向對象的分布式爬蟲框架一簡介概述是一個面向對象的分布式爬蟲框架。分布式集群集群方式維護爬蟲爬蟲運行數據,可通過或定制實現。 《面向對象的分布式爬蟲框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...
摘要:是一個專注于爬蟲的集成了爬蟲管理任務調度任務監控數據分析等模塊的分布式爬蟲管理平臺,非常適合對爬蟲管理爬蟲工程化有要求的開發者及企業。從目前開源的框架來看,大部分爬蟲平臺是以為核心,因此只能支持框架的爬蟲,而不僅支持,還支持其他框架的爬蟲。 showImg(https://segmentfault.com/img/remote/1460000019143107?w=2559&h=112...
摘要:本文轉載自微信公眾號賬號,作者為海航生態科技技術研究院大數據開發工程師高顏。文章介紹了海航生態科技輿情大數據平臺的容器化改造經驗,包括初期技術架構應用容器化架構遷移持續發布與部署。 本文轉載自微信公眾號Docker(賬號:dockerone),作者為海航生態科技技術研究院大數據開發工程師高顏。 文章介紹了海航生態科技輿情大數據平臺的容器化改造經驗,包括初期技術架構、應用容器化、架構遷...
摘要:為了方便用戶展示自己的社區資料,雨點兒網中增加了一個社區爬蟲功能。方案使用運行爬蟲鑒于項目當前的架構,準備使用來執行異步爬蟲。可以同時執行多個爬蟲,最大進程數可配,防止系統過載。尾歡迎使用我們的爬蟲功能來收集社交資料。 序 社區活躍度或者貢獻越來越受到重視,往往會作為獲得工作或者承接項目的加分項。為了方便用戶展示自己的社區資料,雨點兒網中增加了一個社區爬蟲功能。 當前只爬取了用戶主頁上...
閱讀 2260·2023-04-25 14:50
閱讀 1233·2021-10-13 09:50
閱讀 1866·2019-08-30 15:56
閱讀 1839·2019-08-29 15:29
閱讀 2886·2019-08-29 15:27
閱讀 3548·2019-08-29 15:14
閱讀 1192·2019-08-29 13:01
閱讀 3299·2019-08-26 14:06