摘要:版本新特性渲染支持渲染方式采集數據,可參考爬蟲示例抽象并設計,方便自定義和擴展頁面加載邏輯,如渲染等。默認提供單機版爬蟲。渲染通過擴展模塊,支持采集動態渲染數據。原生提供快速推薦和較慢渲染兩種實現,支持自由擴展其他實現。
版本新特性
1、JS渲染:支持JS渲染方式采集數據,可參考 "爬蟲示例6";
2、抽象并設計PageLoader,方便自定義和擴展頁面加載邏輯,如JS渲染等。底層提供 "JsoupPageLoader(默認/推薦)","HtmlUnitPageLoader"兩種實現,可自定義其他類型PageLoader如 "Selenium" 等;
3、修復Jsoup默認加載1M的限制;
4、爬蟲線程中斷處理優化;
簡介XXL-CRAWLER 是一個面向對象的分布式爬蟲框架。一行代碼開發一個分布式爬蟲,擁有"多線程、異步、IP動態代理、分布式、JS渲染"等特性;
特性1、簡潔:API直觀簡潔,可快速上手;
2、輕量級:底層實現僅強依賴jsoup,簡潔高效;
3、模塊化:模塊化的結構設計,可輕松擴展
4、面向對象:支持通過注解,方便的映射頁面數據到PageVO對象,底層自動完成PageVO對象的數據抽取和封裝返回;單個頁面支持抽取一個或多個PageVO
5、多線程:線程池方式運行,提高采集效率;
6、分布式支持:通過擴展 "RunData" 模塊,并結合Redis或DB共享運行數據可實現分布式。默認提供LocalRunData單機版爬蟲。
7、JS渲染:通過擴展 "PageLoader" 模塊,支持采集JS動態渲染數據。原生提供Jsoup(快速、推薦)和HtmlUnit(較慢、JS渲染)兩種實現,支持自由擴展其他實現。
8、失敗重試:請求失敗后重試,并支持設置重試次數;
9、代理IP:對抗反采集策略規則WAF;
10、動態代理:支持運行時動態調整代理池,以及自定義代理池路由策略;
11、異步:支持同步、異步兩種方式運行;
12、擴散全站:支持以現有URL為起點擴散爬取整站;
13、去重:防止重復爬取;
14、URL白名單:支持設置頁面白名單正則,過濾URL;
15、自定義請求信息,如:請求參數、Cookie、Header、UserAgent輪詢、Referrer等;
16、動態參數:支持運行時動態調整請求參數;
17、超時控制:支持設置爬蟲請求的超時時間;
18、主動停頓:爬蟲線程處理完頁面之后進行主動停頓,避免過于頻繁被攔截;
文檔地址中文文檔
技術交流社區交流
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/70931.html
摘要:面向對象的分布式爬蟲框架一簡介概述是一個面向對象的分布式爬蟲框架。分布式集群集群方式維護爬蟲爬蟲運行數據,可通過或定制實現。 《面向對象的分布式爬蟲框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...
摘要:新特性系統底層重構,規范包名采集線程白名單過濾優化,避免冗余失敗重試增強渲染方式采集能力,原生新提供,支持以方式采集頁面數據支持采集非頁面,如接口等,直接輸出響應數據選擇即可簡介是一個分布式爬蟲框架。默認提供單機版爬蟲。 v1.2.2 新特性 1、系統底層重構,規范包名; 2、采集線程白名單過濾優化,避免冗余失敗重試; 3、增強JS渲染方式采集能力,原生新提供 SeleniumPha...
摘要:導讀阿里巴巴千億交易背后,如何盡量避免發布故障在面對實際運維過程中遇到的問題該如何解決近日,在大會上,阿里巴巴運維技術專家少荃,給我們帶來了解決方案和思路。在阿里,這些屏幕包括監控發布單機器故障預警等。 導讀:阿里巴巴千億交易背后,如何盡量避免發布故障?在面對實際運維過程中遇到的問題該如何解決?近日,在GOPS大會上,阿里巴巴運維技術專家少荃,給我們帶來了解決方案和思路。 showIm...
閱讀 2435·2021-10-09 09:44
閱讀 3792·2021-09-22 15:43
閱讀 2924·2021-09-02 09:47
閱讀 2539·2021-08-12 13:29
閱讀 3871·2019-08-30 15:43
閱讀 1680·2019-08-30 13:06
閱讀 2189·2019-08-29 16:07
閱讀 2745·2019-08-29 15:23