Python即時網(wǎng)絡(luò)爬蟲：API說明

genefy 發(fā)布于2019-07-25 10:32 / 938人閱讀

摘要：用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中，內(nèi)容提取器是影響通用性的關(guān)鍵障礙，如果這個提取器是從獲得的，您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。，相關(guān)文檔，即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義，集搜客開源代碼下載源，開源網(wǎng)絡(luò)爬蟲源，文檔修改歷史，

API說明——下載gsExtractor內(nèi)容提取器

1，接口名稱

下載內(nèi)容提取器

2，接口說明

如果您想編寫一個網(wǎng)絡(luò)爬蟲程序，您會發(fā)現(xiàn)大部分時間耗費在調(diào)測網(wǎng)頁內(nèi)容提取規(guī)則上，不講正則表達式的語法如何怪異，即便使用XPath，您也得逐個編寫和調(diào)試。

如果要從一個網(wǎng)頁上提取很多字段，逐個調(diào)試XPath將是十分耗時的。通過這個接口，你可以直接獲得一個調(diào)測好的提取器腳本程序，是標準的XSLT程序，您只需針對目標網(wǎng)頁的DOM運行它，就能獲得XML格式的結(jié)果，所有字段一次性獲得。

這個XSLT提取器可以是您用MS謀數(shù)臺生成的，也可以是其他人共享給您的，只要您有讀權(quán)限，皆可下載使用。

用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中，內(nèi)容提取器是影響通用性的關(guān)鍵障礙，如果這個提取器是從API獲得的，您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。請參看GooSeeker的開源Python網(wǎng)絡(luò)爬蟲項目。

3，接口規(guī)范

3.1，接口地址（URL）

http://www.gooseeker.com/api/getextractor

3.2，請求類型（contentType）
不限

3.3，請求方法
HTTP GET

3.4，請求參數(shù)

key 必選：Yes；類型：String；說明：申請API時分配的AppKey

theme 必選：Yes；類型：String；說明：提取器名，就是用MS謀數(shù)臺定義的規(guī)則名

middle 必選：No；類型：String；說明：規(guī)則編號，如果相同規(guī)則名下定義了多個規(guī)則，需填寫

bname 必選：No；類型：String；說明：整理箱名，如果規(guī)則含有多個整理箱，需填寫

注釋：請參看GooSeeker網(wǎng)絡(luò)爬蟲術(shù)語解釋：集搜客GooSeeker專有名詞解釋

3.5，返回類型（contentType）
text/xml; charset=UTF-8

3.6，返回參數(shù)
HTTP消息頭中的參數(shù)，如下：

more-extractor 類型：String；說明：相同規(guī)則名下有多少個提取器。通常只在可選參數(shù)沒有填寫的時候需要關(guān)注這個參數(shù)，用以提示客戶端有多個規(guī)則和整理箱，客戶端自己決定是否要在發(fā)送請求時攜帶明確的參數(shù)

3.7，返回錯誤信息

消息層錯誤以HTTP 400返回，比如，URL中的參數(shù)不符合本規(guī)范

應(yīng)用層錯誤以HTTP 200 OK返回，具體錯誤碼用XML文件放在消息體中，XML結(jié)構(gòu)如下：


    具體的錯誤碼

具體的code值如下：

keyError：權(quán)限驗證失敗
paramError：URL中傳來的參數(shù)有誤，比如，參數(shù)名稱或值不正確
empty：非錯誤狀態(tài)，而是請求的提取器是不存在的，比如，某個抓取規(guī)則并沒有創(chuàng)建整理箱，則返回empty

4，用法范例（python語言）

提取器名獲取參考 1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

示例代碼：

# -*- coding: utf-8 -*-
from urllib import request

url = "http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名"

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

接下來我會對此API進行測試，將案例發(fā)布出來。

5，相關(guān)文檔

1， Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義

6，集搜客GooSeeker開源代碼下載源

1， GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

1，2016-06-22：V1.0

GPU云服務(wù)器云服務(wù)器即時消息api 即時通話api 即時通訊api 即時通信api

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/38012.html

發(fā)表評論

登陸后可評論

0條評論

genefy

男|高級講師

我要關(guān)注我要私信

TA的文章

Java軟件架構(gòu)師需要掌握的開源工具

閱讀 2951·2021-11-25 09:43
基于javaweb+jsp的新生報道管理系統(tǒng)

閱讀 3327·2021-11-24 09:39
聯(lián)通送的云主機可以做什么-購買了云主機應(yīng)該如何管理，都該做什么？

閱讀 2828·2021-09-22 15:59
Hostio ：荷蘭VPS，AMD平臺超高性能平臺，1-10Gbps大帶寬/2核2G內(nèi)存+5T大流量

閱讀 2174·2021-09-13 10:24
‘純css實現(xiàn)Material Design中的水滴動畫按鈕’的js體驗優(yōu)化

閱讀 509·2019-08-29 17:02
深入理解ES6之《改進的數(shù)組功能》

閱讀 2098·2019-08-29 13:23
CSS盒子模型中外邊距（margin）折疊詳解

閱讀 3058·2019-08-29 13:06
2017拼多多前端筆試

閱讀 3539·2019-08-29 13:04

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python即時網(wǎng)絡(luò)爬蟲：API說明

相關(guān)文章

Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義

Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義(Python2.7版本)

API例子：用Python驅(qū)動Firefox采集網(wǎng)頁數(shù)據(jù)

Python爬蟲實戰(zhàn)（4）：豆瓣小組話題數(shù)據(jù)采集—動態(tài)網(wǎng)頁

Python爬蟲實戰(zhàn)（3）：安居客房產(chǎn)經(jīng)紀人信息采集

發(fā)表評論

0條評論

genefy

男|高級講師

TA的文章

Java軟件架構(gòu)師需要掌握的開源工具

基于javaweb+jsp的新生報道管理系統(tǒng)

聯(lián)通送的云主機可以做什么-購買了云主機應(yīng)該如何管理，都該做什么？

Hostio ：荷蘭VPS，AMD平臺超高性能平臺，1-10Gbps大帶寬/2核2G內(nèi)存+5T大流量

‘純css實現(xiàn)Material Design中的水滴動畫按鈕’的js體驗優(yōu)化

深入理解ES6之《改進的數(shù)組功能》

CSS盒子模型中外邊距（margin）折疊詳解

2017拼多多前端筆試

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python即時網(wǎng)絡(luò)爬蟲：API說明

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！