国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python即時網(wǎng)絡(luò)爬蟲:API說明

genefy / 938人閱讀

摘要:用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中,內(nèi)容提取器是影響通用性的關(guān)鍵障礙,如果這個提取器是從獲得的,您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。,相關(guān)文檔,即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義,集搜客開源代碼下載源,開源網(wǎng)絡(luò)爬蟲源,文檔修改歷史,

API說明——下載gsExtractor內(nèi)容提取器

1,接口名稱

下載內(nèi)容提取器

2,接口說明

如果您想編寫一個網(wǎng)絡(luò)爬蟲程序,您會發(fā)現(xiàn)大部分時間耗費在調(diào)測網(wǎng)頁內(nèi)容提取規(guī)則上,不講正則表達式的語法如何怪異,即便使用XPath,您也得逐個編寫和調(diào)試。

如果要從一個網(wǎng)頁上提取很多字段,逐個調(diào)試XPath將是十分耗時的。通過這個接口,你可以直接獲得一個調(diào)測好的提取器腳本程序,是標準的XSLT程序,您只需針對目標網(wǎng)頁的DOM運行它,就能獲得XML格式的結(jié)果,所有字段一次性獲得。

這個XSLT提取器可以是您用MS謀數(shù)臺生成的,也可以是其他人共享給您的,只要您有讀權(quán)限,皆可下載使用。

用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中,內(nèi)容提取器是影響通用性的關(guān)鍵障礙,如果這個提取器是從API獲得的,您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。請參看GooSeeker的開源Python網(wǎng)絡(luò)爬蟲項目。

3,接口規(guī)范

3.1,接口地址(URL)

http://www.gooseeker.com/api/getextractor

3.2,請求類型(contentType)
不限

3.3,請求方法
HTTP GET

3.4,請求參數(shù)

key 必選:Yes;類型:String;說明:申請API時分配的AppKey

theme 必選:Yes;類型:String;說明:提取器名,就是用MS謀數(shù)臺定義的規(guī)則名

middle 必選:No;類型:String;說明:規(guī)則編號,如果相同規(guī)則名下定義了多個規(guī)則,需填寫

bname 必選:No;類型:String;說明:整理箱名,如果規(guī)則含有多個整理箱,需填寫

注釋:請參看GooSeeker網(wǎng)絡(luò)爬蟲術(shù)語解釋:集搜客GooSeeker專有名詞解釋

3.5,返回類型(contentType)
text/xml; charset=UTF-8

3.6,返回參數(shù)
HTTP消息頭中的參數(shù),如下:

more-extractor 類型:String;說明:相同規(guī)則名下有多少個提取器。通常只在可選參數(shù)沒有填寫的時候需要關(guān)注這個參數(shù),用以提示客戶端有多個規(guī)則和整理箱,客戶端自己決定是否要在發(fā)送請求時攜帶明確的參數(shù)

3.7,返回錯誤信息

消息層錯誤以HTTP 400返回,比如,URL中的參數(shù)不符合本規(guī)范

應(yīng)用層錯誤以HTTP 200 OK返回,具體錯誤碼用XML文件放在消息體中,XML結(jié)構(gòu)如下:


    具體的錯誤碼

具體的code值如下:

keyError:權(quán)限驗證失敗
paramError:URL中傳來的參數(shù)有誤,比如,參數(shù)名稱或值不正確
empty:非錯誤狀態(tài),而是請求的提取器是不存在的,比如,某個抓取規(guī)則并沒有創(chuàng)建整理箱,則返回empty

4,用法范例(python語言)

提取器名獲取參考 1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

示例代碼:

# -*- coding: utf-8 -*-
from urllib import request

url = "http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名"

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

接下來我會對此API進行測試,將案例發(fā)布出來。

5,相關(guān)文檔

1, Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義

6,集搜客GooSeeker開源代碼下載源

1, GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7,文檔修改歷史

1,2016-06-22:V1.0

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/38012.html

相關(guān)文章

  • Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義

    摘要:集搜客從文件讀取從字符串獲得通過接口獲得返回當前提取方法,入?yún)⑹且粋€對象,返回是提取結(jié)果用法示例下面是一個示例程序,演示怎樣使用類提取官網(wǎng)的帖子列表。 1. 項目背景 在python 即時網(wǎng)絡(luò)爬蟲項目啟動說明中我們討論一個數(shù)字:程序員浪費在調(diào)測內(nèi)容提取規(guī)則上的時間,從而我們發(fā)起了這個項目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投入到更高端的數(shù)據(jù)處理工作中。 2. 解決方案 為了解決這個問...

    KunMinX 評論0 收藏0
  • Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義(Python2.7版本)

    摘要:然而,和是有區(qū)別的,即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義一文的源碼無法在下使用,本文將發(fā)布一個的內(nèi)容提取器。 1. 項目背景 showImg(https://segmentfault.com/img/bVz5hX); 在Python即時網(wǎng)絡(luò)爬蟲項目啟動說明中我們討論一個數(shù)字:程序員浪費在調(diào)測內(nèi)容提取規(guī)則上的時間太多了(見上圖),從而我們發(fā)起了這個項目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投...

    xuxueli 評論0 收藏0
  • API例子:用Python驅(qū)動Firefox采集網(wǎng)頁數(shù)據(jù)

    摘要:開源即時網(wǎng)絡(luò)爬蟲項目將與基于的異步網(wǎng)絡(luò)框架集成,所以本例將使用采集淘寶這種含有大量代碼的網(wǎng)頁數(shù)據(jù),但是要注意本例一個嚴重缺陷用加載網(wǎng)頁的過程發(fā)生在中,破壞了的架構(gòu)原則。 showImg(https://segmentfault.com/img/bVyzAX); 1,引言 本文講解怎樣用Python驅(qū)動Firefox瀏覽器寫一個簡易的網(wǎng)頁數(shù)據(jù)采集器。開源Python即時網(wǎng)絡(luò)爬蟲項目將與S...

    Harriet666 評論0 收藏0
  • Python爬蟲實戰(zhàn)(4):豆瓣小組話題數(shù)據(jù)采集—動態(tài)網(wǎng)頁

    摘要:,引言注釋上一篇爬蟲實戰(zhàn)安居客房產(chǎn)經(jīng)紀人信息采集,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個實戰(zhàn)來采集動態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注釋:上一篇《Python爬蟲實戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀人信息采集》,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個實戰(zhàn)來采集動態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功...

    blastz 評論0 收藏0
  • Python爬蟲實戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀人信息采集

    摘要:為了使用各種應(yīng)用場景,該項目的整個網(wǎng)絡(luò)爬蟲產(chǎn)品線包含了四類產(chǎn)品,如下圖所示本實戰(zhàn)是上圖中的獨立爬蟲的一個實例,以采集安居客房產(chǎn)經(jīng)紀人信息為例,記錄整個采集流程,包括和依賴庫的安裝,即便是初學(xué)者,也可以跟著文章內(nèi)容成功地完成運行。 showImg(https://segmentfault.com/img/bVy2Iy); 1, 引言 Python開源網(wǎng)絡(luò)爬蟲項目啟動之初,我們就把網(wǎng)絡(luò)爬蟲...

    馬忠志 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<