摘要:用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中,內(nèi)容提取器是影響通用性的關(guān)鍵障礙,如果這個提取器是從獲得的,您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。,相關(guān)文檔,即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義,集搜客開源代碼下載源,開源網(wǎng)絡(luò)爬蟲源,文檔修改歷史,
API說明——下載gsExtractor內(nèi)容提取器
1,接口名稱下載內(nèi)容提取器
2,接口說明如果您想編寫一個網(wǎng)絡(luò)爬蟲程序,您會發(fā)現(xiàn)大部分時間耗費在調(diào)測網(wǎng)頁內(nèi)容提取規(guī)則上,不講正則表達式的語法如何怪異,即便使用XPath,您也得逐個編寫和調(diào)試。
如果要從一個網(wǎng)頁上提取很多字段,逐個調(diào)試XPath將是十分耗時的。通過這個接口,你可以直接獲得一個調(diào)測好的提取器腳本程序,是標準的XSLT程序,您只需針對目標網(wǎng)頁的DOM運行它,就能獲得XML格式的結(jié)果,所有字段一次性獲得。
這個XSLT提取器可以是您用MS謀數(shù)臺生成的,也可以是其他人共享給您的,只要您有讀權(quán)限,皆可下載使用。
用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中,內(nèi)容提取器是影響通用性的關(guān)鍵障礙,如果這個提取器是從API獲得的,您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。請參看GooSeeker的開源Python網(wǎng)絡(luò)爬蟲項目。
3,接口規(guī)范3.1,接口地址(URL)
http://www.gooseeker.com/api/getextractor
3.2,請求類型(contentType)
不限
3.3,請求方法
HTTP GET
3.4,請求參數(shù)
key 必選:Yes;類型:String;說明:申請API時分配的AppKey
theme 必選:Yes;類型:String;說明:提取器名,就是用MS謀數(shù)臺定義的規(guī)則名
middle 必選:No;類型:String;說明:規(guī)則編號,如果相同規(guī)則名下定義了多個規(guī)則,需填寫
bname 必選:No;類型:String;說明:整理箱名,如果規(guī)則含有多個整理箱,需填寫
注釋:請參看GooSeeker網(wǎng)絡(luò)爬蟲術(shù)語解釋:集搜客GooSeeker專有名詞解釋
3.5,返回類型(contentType)
text/xml; charset=UTF-8
3.6,返回參數(shù)
HTTP消息頭中的參數(shù),如下:
more-extractor 類型:String;說明:相同規(guī)則名下有多少個提取器。通常只在可選參數(shù)沒有填寫的時候需要關(guān)注這個參數(shù),用以提示客戶端有多個規(guī)則和整理箱,客戶端自己決定是否要在發(fā)送請求時攜帶明確的參數(shù)
3.7,返回錯誤信息
消息層錯誤以HTTP 400返回,比如,URL中的參數(shù)不符合本規(guī)范
應(yīng)用層錯誤以HTTP 200 OK返回,具體錯誤碼用XML文件放在消息體中,XML結(jié)構(gòu)如下:
具體的錯誤碼
具體的code值如下:
keyError:權(quán)限驗證失敗 paramError:URL中傳來的參數(shù)有誤,比如,參數(shù)名稱或值不正確 empty:非錯誤狀態(tài),而是請求的提取器是不存在的,比如,某個抓取規(guī)則并沒有創(chuàng)建整理箱,則返回empty4,用法范例(python語言)
提取器名獲取參考 1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt
示例代碼:
# -*- coding: utf-8 -*- from urllib import request url = "http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名" resp = request.urlopen(url) content = resp.read() if(content): print(content)
接下來我會對此API進行測試,將案例發(fā)布出來。
5,相關(guān)文檔1, Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義
6,集搜客GooSeeker開源代碼下載源1, GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源
7,文檔修改歷史1,2016-06-22:V1.0
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/38012.html
摘要:集搜客從文件讀取從字符串獲得通過接口獲得返回當前提取方法,入?yún)⑹且粋€對象,返回是提取結(jié)果用法示例下面是一個示例程序,演示怎樣使用類提取官網(wǎng)的帖子列表。 1. 項目背景 在python 即時網(wǎng)絡(luò)爬蟲項目啟動說明中我們討論一個數(shù)字:程序員浪費在調(diào)測內(nèi)容提取規(guī)則上的時間,從而我們發(fā)起了這個項目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投入到更高端的數(shù)據(jù)處理工作中。 2. 解決方案 為了解決這個問...
摘要:然而,和是有區(qū)別的,即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義一文的源碼無法在下使用,本文將發(fā)布一個的內(nèi)容提取器。 1. 項目背景 showImg(https://segmentfault.com/img/bVz5hX); 在Python即時網(wǎng)絡(luò)爬蟲項目啟動說明中我們討論一個數(shù)字:程序員浪費在調(diào)測內(nèi)容提取規(guī)則上的時間太多了(見上圖),從而我們發(fā)起了這個項目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投...
摘要:開源即時網(wǎng)絡(luò)爬蟲項目將與基于的異步網(wǎng)絡(luò)框架集成,所以本例將使用采集淘寶這種含有大量代碼的網(wǎng)頁數(shù)據(jù),但是要注意本例一個嚴重缺陷用加載網(wǎng)頁的過程發(fā)生在中,破壞了的架構(gòu)原則。 showImg(https://segmentfault.com/img/bVyzAX); 1,引言 本文講解怎樣用Python驅(qū)動Firefox瀏覽器寫一個簡易的網(wǎng)頁數(shù)據(jù)采集器。開源Python即時網(wǎng)絡(luò)爬蟲項目將與S...
摘要:,引言注釋上一篇爬蟲實戰(zhàn)安居客房產(chǎn)經(jīng)紀人信息采集,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個實戰(zhàn)來采集動態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注釋:上一篇《Python爬蟲實戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀人信息采集》,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個實戰(zhàn)來采集動態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功...
摘要:為了使用各種應(yīng)用場景,該項目的整個網(wǎng)絡(luò)爬蟲產(chǎn)品線包含了四類產(chǎn)品,如下圖所示本實戰(zhàn)是上圖中的獨立爬蟲的一個實例,以采集安居客房產(chǎn)經(jīng)紀人信息為例,記錄整個采集流程,包括和依賴庫的安裝,即便是初學(xué)者,也可以跟著文章內(nèi)容成功地完成運行。 showImg(https://segmentfault.com/img/bVy2Iy); 1, 引言 Python開源網(wǎng)絡(luò)爬蟲項目啟動之初,我們就把網(wǎng)絡(luò)爬蟲...
閱讀 2951·2021-11-25 09:43
閱讀 3327·2021-11-24 09:39
閱讀 2828·2021-09-22 15:59
閱讀 2174·2021-09-13 10:24
閱讀 509·2019-08-29 17:02
閱讀 2098·2019-08-29 13:23
閱讀 3058·2019-08-29 13:06
閱讀 3539·2019-08-29 13:04