Java爬蟲：Jsoup + Phantomjs

songze 發(fā)布于2019-08-22 15:32 / 3349人閱讀

摘要：一是一個(gè)開源解析器，可直接解析某個(gè)地址文本內(nèi)容。通過或選擇器來查找取出數(shù)據(jù)，實(shí)現(xiàn)爬蟲。無頭瀏覽器一個(gè)完整的瀏覽器內(nèi)核包括解析引擎渲染引擎請求處理等但是不包括顯示和用戶交互頁面的瀏覽器。

（一）Jsoup

Jsoup是一個(gè)Java開源HTML解析器，可直接解析某個(gè)URL地址、HTML文本內(nèi)容。通過Dom或Css選擇器來查找、取出數(shù)據(jù)，實(shí)現(xiàn)爬蟲。

maven坐標(biāo)

    
      org.jsoup
      jsoup
      1.11.2

Jsoup開發(fā)指南（中文版）

演示Demo

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JsoupDemo
{
    public static void main( String[] args ) throws IOException {
        Document doc = Jsoup.connect("http://www.baidu.com").get();

        System.out.println("title:"+doc.title());

        Elements es = doc.select("area");
        //Elements es = doc.getElementByTag("area");
        
        System.out.println("百度圖片點(diǎn)擊路徑:"+es.attr("href"));
    }
}

（二）PhantomJs

PhantomJS是一個(gè)可編程的無頭瀏覽器。通過PhantomJs可以采集Ajax生成的內(nèi)容。

無頭瀏覽器：一個(gè)完整的瀏覽器內(nèi)核,包括js解析引擎,渲染引擎,請求處理等,但是不包括顯示和用戶交互頁面的瀏覽器。

PhantomJs官方文檔

步驟：

下載安裝，配置環(huán)境變量

編寫并執(zhí)行js腳本

演示Demo

var page = require("webpage").create(),    //網(wǎng)頁對象 
    system = require("system"),            //系統(tǒng)對象 
    address,t;

phantom.outputEncoding="gbk";    //設(shè)置輸出編碼
//phantom.outputEncoding="utf-8";    //設(shè)置輸出編碼

var arr = system.args;

//判斷參數(shù)是否傳入
if(arr.length==1){
    console.log("請輸入待請求url");
    phantom.exit(0);
} else {
    address = arr[1];
    console.log("開始訪問頁面："+address);
    t = Date.now();
    
    //訪問頁面
    page.open(address,function(status){
        if(status !== "success"){
            console.log("page faild to load.");
            phantom.exit();
        } else {
            t = Date.now() - t;
            console.log("頁面訪問結(jié)束：耗時(shí)："+t+"ms");
            
            //引入jquery
            page.includeJs("http://code.jquery.com/jquery-2.2.4.min.js",function(){
                var result = (page.evaluate(function(){
                    return $("area").attr("href");
                }));
                console.log("圖片點(diǎn)擊路徑："+result);
                phantom.exit();
            })
        }
    })
}

假設(shè)文件名為 c:/baidu.js；在命令行中執(zhí)行 phantomjs c:/baidu.js http://www.baidu.com

java 調(diào)用Phantomjs

演示Demo

import java.io.*;

public class PhantomJsDemo 
{
    public static void main( String[] args ) throws IOException {
        Runtime rn = Runtime.getRuntime();
        String url = "http://www.baidu.com"
        Process process = rn.exec("phantomjs c:/baidu.js " + url);

        BufferedReader br = new BufferedReader(new InputStreamReader(process.getInputStream()));
        StringBuffer sb = new StringBuffer();
        String temp = "";
        while((temp=br.readLine())!=null){
            sb.append(temp);
        }

        System.out.println(sb.toString());
    }
}