摘要:序是里頭比較優秀的一個爬蟲框架使用作為解析工具,并基于其開發了解析的工具。默認使用了作為下載工具。這里展示一下入門級使用。
序
webmagic是java里頭比較優秀的一個爬蟲框架:
使用Jsoup作為HTML解析工具,并基于其開發了解析XPath的工具Xsoup。
默認使用了Apache HttpClient作為下載工具。
這里展示一下入門級使用。
maven啟動類us.codecraft webmagic-core 0.7.3 us.codecraft webmagic-extension 0.7.3
public static void main(String[] args) { Spider.create(new GithubRepoPageProcessor()) //從https://github.com/code4craft開始抓 .addUrl("https://github.com/code4craft") //設置Scheduler,使用Redis來管理URL隊列 .setScheduler(new RedisScheduler("localhost")) //設置Pipeline,將結果以json方式保存到文件 .addPipeline(new JsonFilePipeline("D:datawebmagic")) //開啟5個線程同時執行 .thread(5) //啟動爬蟲 .run(); }PageProcessor
核心的工作主要是自定義PageProcessor,比如
new PageProcessor() { @Override public void process(Page page) { Listlinks = page.getHtml() .xpath("http://table[@id="jrjthreadtable"]//td/a/@href") .regex("/msg,d+.*.html") .all(); System.out.println(links); } @Override public Site getSite() { return Site.me() .setRetryTimes(3) .setSleepTime(1000) .setTimeOut(10000); }
doc這里使用了xpath的語法來選取,不熟悉xpath的話,可以使用chrome:檢查-copy-copy xpath來學習。
webmagic
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/70262.html
摘要:是爬蟲框架中比較簡單易上手的一個。官網鏈接下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數據。頁面鏈接為引入配置如果項目已經引入記錄日志,則需要在中排除。 webmagic是java爬蟲框架中比較簡單易上手的一個。官網鏈接:http://webmagic.io/ 下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數據。頁面鏈接為:https://mybank.i...
摘要:爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之之進階 爬蟲框架Webmagic源碼分析之Spider爬蟲框架WebMagic源碼分析之Scheduler爬蟲框架WebMagic源碼分析之Downloader爬蟲框架WebMagic源碼分析之Selector爬蟲框架WebMagic源碼分析之SeleniumWebMagic之Spider進階
摘要:有一個模塊其中實現了一個。但是感覺靈活性不大。接口如下它會獲得一個實例,你可以在里面進行任意的操作。本部分到此結束。 webmagic有一個selenium模塊,其中實現了一個SeleniumDownloader。但是感覺靈活性不大。所以我就自己參考實現了一個。 首先是WebDriverPool用來管理WebDriver池: import java.util.ArrayList; im...
摘要:目前最新版是版本,在爬取只支持的站點會報錯目前作者說會在版本發布修復錯誤,目前的解決辦法是臨時適配方式,修改中的方法,重寫自己實現的,并設置到中。 目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2的https站點會報錯 javax.net.ssl.SSLException: Received fatal alert: protocol_version at ...
摘要:還是直接貼代碼說明比較實在。重新調整窗口大小,以適應頁面,需要耗費一定時間。建議等待合理的時間。負責摳圖指定坐標不保持比例,調用進程,返回識別結果。 還是直接貼代碼說明比較實在。感覺webmagic-selenium這個模塊有點雞肋,但還是有可借鑒之處。借鑒它寫了一個SeleniumDownloader,如下: import org.openqa.selenium.By; import...
閱讀 1833·2021-11-25 09:43
閱讀 1335·2021-11-22 15:08
閱讀 3735·2021-11-22 09:34
閱讀 3225·2021-09-04 16:40
閱讀 3000·2021-09-04 16:40
閱讀 542·2019-08-30 15:54
閱讀 1334·2019-08-29 17:19
閱讀 1752·2019-08-28 18:13