API例子：用Java/JavaScript下載內(nèi)容提取器

JackJiang 發(fā)布于2019-07-25 10:34 / 1202人閱讀

摘要：，引言本文講解怎樣用和使用接口下載內(nèi)容提取器，這是一個(gè)示例程序。具體請(qǐng)參看內(nèi)容提取器的定義。用下載內(nèi)容提取器可以直接跳到第部分的內(nèi)容。

1，引言

本文講解怎樣用Java和JavaScript使用 GooSeeker API 接口下載內(nèi)容提取器，這是一個(gè)示例程序。什么是內(nèi)容提取器？為什么用這種方式？源自Python即時(shí)網(wǎng)絡(luò)爬蟲開(kāi)源項(xiàng)目：通過(guò)生成內(nèi)容提取器，大幅節(jié)省程序員時(shí)間。具體請(qǐng)參看《內(nèi)容提取器的定義》。

2，用Java下載內(nèi)容提取器

這是一系列實(shí)例程序中的一個(gè)，就目前編程語(yǔ)言發(fā)展來(lái)看，Java實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)容提取并不合適，除了語(yǔ)言不夠靈活便捷以外，整個(gè)生態(tài)不夠活躍，可選的類庫(kù)增長(zhǎng)緩慢。另外，要從JavaScript動(dòng)態(tài)網(wǎng)頁(yè)中提取內(nèi)容，Java也很不方便，需要一個(gè)JavaScript引擎。用JavaScript下載內(nèi)容提取器可以直接跳到第3部分的內(nèi)容。

具體實(shí)現(xiàn)

注解：

使用Java類庫(kù) jsoup（1.8.3以上版本），可以很便利、快速的獲取網(wǎng)頁(yè)dom。

通過(guò)GooSeeker API 獲取xslt（參考 1分鐘快速生成用于網(wǎng)頁(yè)內(nèi)容提取的xslt）

使用Java自帶的類TransformerFactory執(zhí)行網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換

源代碼如下：

public static void main(String[] args)
{
    InputStream xslt = null;
    try
    {
        String grabUrl = "http://m.58.com/cs/qiuzu/22613961050143x.shtml"; // 抓取網(wǎng)址
        String resultPath = "F:/temp/xslt/result.xml"; // 抓取結(jié)果文件的存放路徑
        // 通過(guò)GooSeeker API接口獲得xslt
        xslt = getGsExtractor();
        // 抓取網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換結(jié)果文件
        convertXml(grabUrl, xslt, resultPath);
    } catch (Exception e)
    {
        e.printStackTrace();
    } finally
    {
        try
        {
            if (xslt != null)
                xslt.close();
        } catch (IOException e)
        {
            e.printStackTrace();
        }
    }
}

`/**`
 `* @description dom轉(zhuǎn)換`
 `*/`
public static void convertXml(String grabUrl, InputStream xslt, String resultPath) throws Exception
{
    // 這里的doc對(duì)象指的是jsoup里的Document對(duì)象
    org.jsoup.nodes.Document doc = Jsoup.parse(new URL(grabUrl).openStream(), "UTF-8", grabUrl);
    W3CDom w3cDom = new W3CDom();
    // 這里的w3cDoc對(duì)象指的是w3c里的Document對(duì)象
    org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(doc);
    Source srcSource = new DOMSource(w3cDoc);
    TransformerFactory tFactory =   TransformerFactory.newInstance();
    Transformer transformer = tFactory.newTransformer(new StreamSource(xslt));
    transformer.transform(srcSource, new StreamResult(new FileOutputStream(resultPath)));
}

`/**`
 `* @description 獲取API返回結(jié)果`
 `*/`
public static InputStream getGsExtractor()
{
    // api接口
    String apiUrl = "http://www.gooseeker.com/api/getextractor";
    // 請(qǐng)求參數(shù)
    Map params = new HashMap();
    params.put("key", "xxx");  // Gooseeker會(huì)員中心申請(qǐng)的API KEY
    params.put("theme", "xxx");  // 提取器名，就是用MS謀數(shù)臺(tái)定義的規(guī)則名
    params.put("middle", "xxx");  // 規(guī)則編號(hào)，如果相同規(guī)則名下定義了多個(gè)規(guī)則，需填寫
    params.put("bname", "xxx"); // 整理箱名，如果規(guī)則含有多個(gè)整理箱，需填寫
    String httpArg = urlparam(params);
    apiUrl = apiUrl + "?" + httpArg;
    InputStream is = null;
    try
    {
        URL url = new URL(apiUrl);
        HttpURLConnection urlCon = (HttpURLConnection) url.openConnection();
        urlCon.setRequestMethod("GET");
        is = urlCon.getInputStream();
    } catch (ProtocolException e)
    {
        e.printStackTrace();
    } catch (IOException e)
    {
        e.printStackTrace();
    }
    return is;
}

`/**`
 `* @description 請(qǐng)求參數(shù)`
 `*/`
public static String urlparam(Map data)
{
    StringBuilder sb = new StringBuilder();
    for (Map.Entry entry : data.entrySet())
    {
        try
        {
            sb.append(entry.getKey()).append("=").append(URLEncoder.encode(entry.getValue() + "", "UTF-8")).append("&");
        } catch (UnsupportedEncodingException e)
        {
            e.printStackTrace();
        }
    }
    return sb.toString();
}

返回結(jié)果如下：

3，用JavaScript下載內(nèi)容提取器

請(qǐng)注意，如果本例的JavaScript代碼是在網(wǎng)頁(yè)上運(yùn)行的，因?yàn)榭缬騿?wèn)題，是無(wú)法實(shí)現(xiàn)非本站網(wǎng)頁(yè)內(nèi)容爬取的。所以，要運(yùn)行在具有特權(quán)的JavaScript引擎上，比如，瀏覽器擴(kuò)展程序、自研的瀏覽器、自己的程序中含有JavaScript引擎等。

本例為了實(shí)驗(yàn)方便，仍然放在網(wǎng)頁(yè)上運(yùn)行，為了繞開(kāi)跨域問(wèn)題，是把目標(biāo)網(wǎng)頁(yè)存下來(lái)并進(jìn)行修改，把JavaScript插入進(jìn)去。這么多人工操作，僅僅是為了實(shí)驗(yàn)，正式使用的時(shí)候需要考慮別的手段。

具體實(shí)現(xiàn)

注解：

引用 jQuery 類庫(kù) （jQuery-1.9.0 以上）

為了解決跨域問(wèn)題，把目標(biāo)網(wǎng)頁(yè)預(yù)先保存到硬盤上

在目標(biāo)網(wǎng)頁(yè)中插入JavaScript代碼

使用GooSeeker API，把內(nèi)容提取器下載下來(lái)，內(nèi)容提取器是一個(gè)xslt程序，下例使用了jQuery的ajax方法從api獲得xslt

用xslt處理器作內(nèi)容提取

下面是源代碼：

// 目標(biāo)網(wǎng)頁(yè)網(wǎng)址為http://m.58.com/cs/qiuzu/22613961050143x.shtml，預(yù)先保存成本地html文件，并插入下述代碼
$(document).ready(function(){
    $.ajax({
        type: "get", 
        url: "http://www.gooseeker.com/api/getextractor?key=申請(qǐng)的appKey&theme=規(guī)則主題名", 
        dataType: "xml", 
        success: function(xslt)
            {
            var result = convertXml(xslt, window.document);
            alert("result:" + result);
        } 
    });  
});

/* 用xslt將dom轉(zhuǎn)換為xml對(duì)象 */
function convertXml(xslt, dom)
{
    // 定義XSLTProcessor對(duì)象
    var xsltProcessor = new XSLTProcessor();
    xsltProcessor.importStylesheet(xslt);
    // transformToDocument方式
    var result = xsltProcessor.transformToDocument(dom);
    return result;
}

返回結(jié)果截圖如下

4，展望

同樣可以用Python來(lái)獲取指定網(wǎng)頁(yè)內(nèi)容，感覺(jué)Python的語(yǔ)法更加簡(jiǎn)潔，后續(xù)增加Python語(yǔ)言的示例，有興趣的小伙伴可以加入一起研究。

5，相關(guān)文檔

1， Python即時(shí)網(wǎng)絡(luò)爬蟲：API說(shuō)明

6，集搜客GooSeeker開(kāi)源代碼下載源

1， GooSeeker開(kāi)源Python網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

1，2016-06-24：V1.0

GPU云服務(wù)器云服務(wù)器網(wǎng)頁(yè)內(nèi)容提取 php提取括號(hào)內(nèi)容提取html指定內(nèi)容提取日志內(nèi)容java

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/38033.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

JackJiang

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

ssl證書怎么部署安裝?SSL證書下載后如何安裝

閱讀 2104·2021-11-23 10:06
利用selenium自動(dòng)抓取淘寶后臺(tái)運(yùn)營(yíng)數(shù)據(jù)填入表格

閱讀 3456·2021-11-11 16:54
簡(jiǎn)易實(shí)踐的vue自定義tab入門

閱讀 3336·2019-08-29 17:31
Web前端經(jīng)典面試試題（三）

閱讀 3563·2019-08-29 17:05
Async and Defer

閱讀 2165·2019-08-26 13:36
javascript獲取元素樣式

閱讀 2154·2019-08-26 12:17
利用Object.prototype.toString.call()來(lái)進(jìn)行類型檢驗(yàn)

閱讀 519·2019-08-26 12:12
前端權(quán)限映射:1.靜態(tài)映射 2. 動(dòng)態(tài)映射

閱讀 1668·2019-08-26 10:19

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

API例子：用Java/JavaScript下載內(nèi)容提取器

相關(guān)文章

API例子：用Python驅(qū)動(dòng)Firefox采集網(wǎng)頁(yè)數(shù)據(jù)

快速制作規(guī)則及獲取規(guī)則提取器API

**Python即時(shí)網(wǎng)絡(luò)爬蟲：API說(shuō)明**

讓Scrapy的Spider更通用

**Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義(Python2.7版本)**

發(fā)表評(píng)論

0條評(píng)論

JackJiang

男|高級(jí)講師

TA的文章

ssl證書怎么部署安裝?SSL證書下載后如何安裝

利用selenium自動(dòng)抓取淘寶后臺(tái)運(yùn)營(yíng)數(shù)據(jù)填入表格

簡(jiǎn)易實(shí)踐的vue自定義tab入門

Web前端經(jīng)典面試試題（三）

Async and Defer

javascript獲取元素樣式

利用Object.prototype.toString.call()來(lái)進(jìn)行類型檢驗(yàn)

前端權(quán)限映射:1.靜態(tài)映射 2. 動(dòng)態(tài)映射

最新活動(dòng)