国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

webmagic小試牛刀

stefan / 3105人閱讀

摘要:序是里頭比較優秀的一個爬蟲框架使用作為解析工具,并基于其開發了解析的工具。默認使用了作為下載工具。這里展示一下入門級使用。

webmagic是java里頭比較優秀的一個爬蟲框架:

使用Jsoup作為HTML解析工具,并基于其開發了解析XPath的工具Xsoup。

默認使用了Apache HttpClient作為下載工具。

這里展示一下入門級使用。

maven
        
            us.codecraft
            webmagic-core
            0.7.3
        
        
            us.codecraft
            webmagic-extension
            0.7.3
        
啟動類
public static void main(String[] args) {
    Spider.create(new GithubRepoPageProcessor())
            //從https://github.com/code4craft開始抓    
            .addUrl("https://github.com/code4craft")
            //設置Scheduler,使用Redis來管理URL隊列
            .setScheduler(new RedisScheduler("localhost"))
            //設置Pipeline,將結果以json方式保存到文件
            .addPipeline(new JsonFilePipeline("D:datawebmagic"))
            //開啟5個線程同時執行
            .thread(5)
            //啟動爬蟲
            .run();
}
PageProcessor

核心的工作主要是自定義PageProcessor,比如

new PageProcessor() {

            @Override
            public void process(Page page) {
                List links = page.getHtml()
                        .xpath("http://table[@id="jrjthreadtable"]//td/a/@href")
                        .regex("/msg,d+.*.html")
                        .all();
                System.out.println(links);
            }

            @Override
            public Site getSite() {
                return Site.me()
                        .setRetryTimes(3)
                        .setSleepTime(1000)
                        .setTimeOut(10000);
            }

這里使用了xpath的語法來選取,不熟悉xpath的話,可以使用chrome:檢查-copy-copy xpath來學習。

doc

webmagic

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/70262.html

相關文章

  • webmagic爬取分頁列表數據

    摘要:是爬蟲框架中比較簡單易上手的一個。官網鏈接下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數據。頁面鏈接為引入配置如果項目已經引入記錄日志,則需要在中排除。 webmagic是java爬蟲框架中比較簡單易上手的一個。官網鏈接:http://webmagic.io/ 下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數據。頁面鏈接為:https://mybank.i...

    Shisui 評論0 收藏0
  • 爬蟲框架WebMagic源碼分析系列目錄

    摘要:爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之之進階 爬蟲框架Webmagic源碼分析之Spider爬蟲框架WebMagic源碼分析之Scheduler爬蟲框架WebMagic源碼分析之Downloader爬蟲框架WebMagic源碼分析之Selector爬蟲框架WebMagic源碼分析之SeleniumWebMagic之Spider進階

    wayneli 評論0 收藏0
  • 爬蟲框架WebMagic源碼分析之Selenium

    摘要:有一個模塊其中實現了一個。但是感覺靈活性不大。接口如下它會獲得一個實例,你可以在里面進行任意的操作。本部分到此結束。 webmagic有一個selenium模塊,其中實現了一個SeleniumDownloader。但是感覺靈活性不大。所以我就自己參考實現了一個。 首先是WebDriverPool用來管理WebDriver池: import java.util.ArrayList; im...

    MarvinZhang 評論0 收藏0
  • 關于webmagic爬取Https網站報錯的解決辦法

    摘要:目前最新版是版本,在爬取只支持的站點會報錯目前作者說會在版本發布修復錯誤,目前的解決辦法是臨時適配方式,修改中的方法,重寫自己實現的,并設置到中。 目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2的https站點會報錯 javax.net.ssl.SSLException: Received fatal alert: protocol_version at ...

    CKJOKER 評論0 收藏0
  • Webmagic+Selenium+PhantomJS實戰

    摘要:還是直接貼代碼說明比較實在。重新調整窗口大小,以適應頁面,需要耗費一定時間。建議等待合理的時間。負責摳圖指定坐標不保持比例,調用進程,返回識別結果。 還是直接貼代碼說明比較實在。感覺webmagic-selenium這個模塊有點雞肋,但還是有可借鑒之處。借鑒它寫了一個SeleniumDownloader,如下: import org.openqa.selenium.By; import...

    zhangxiangliang 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<