摘要:為完成一個小型爬蟲項目,在并未使用該平臺提供的情況下,細致分析了國內某著名電商網站商品屬性的獲取思路和方法,茲此記錄分享,學習交流。動態內容部分該網站大部分商品屬性都是通過動態獲取的。其余不能通過靜態內容獲取的屬性均可類比分析嘗試獲得。
為完成一個小型爬蟲項目,在并未使用該平臺提供的API情況下,細致分析了國內某著名電商網站商品屬性的獲取思路和方法,茲此記錄分享,學習交流。
靜態頁面部分為了獲取靜態頁面部分的內容,需要使用firefox的開發者功能禁用javascript,如圖
勾選"Disable JavaScript"。刷新頁面后可見。通過靜態頁面可獲取標題,商品ID,分類號,商品URL,圖片url等內容。可直接使用正則表達式或xpath等工具分析獲得,這里不再贅述。
該網站大部分商品屬性都是通過ajax動態獲取的。還是通過瀏覽器來分析。取消勾選"Disable JavaScript"后,使用"Network"工具可對服務器響應的包進行抓包和分類。為避免反復重新加載頁面時緩存的影響,勾選"Disable Cache"選項。先打開"Network"界面,然后刷新頁面,可獲得加載過程的抓包內容。ajax請求返回的數據為json或js類型。例如:
某json數據
url為
http://p.3.cn/prices/get?callback=cnp&type=1&area=1_72_4137&pdtk=&pduid=1516989398&pdpin=&pdbp=0&skuid=J_1743187
可在network工具箱內查看其response內容為
對照頁面內容后發現其中p字段正是商品價格數據!
通過直接打開鏈接得到json串為
cnp([{"id":"J_1743187","p":"499.00","m":"549.00"}]);
此response中帶有回調函數名"cnp",觀察在url中也有一個相同字段。遂嘗試在url中去掉該字段,重新請求后
http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187
獲得json:
[{"id":"J_1743187","p":"499.00","m":"549.00"}]
繼續嘗試刪除請求中的get參數,最終發現可用
http://p.3.cn/prices/mgets?skuids=J_1743187
正常獲取到相同的數據。
python解析代碼:
import urllib2 import json p=urllib2.urlopen("http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187").read() p_json=json.loads(p) price=p_json["p"]
獲取到價格數據,方便了自動化生成。其余不能通過靜態內容獲取的屬性均可類比分析嘗試獲得。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37700.html
摘要:在這些系統中,單個店鋪維護他們各自的庫存,然后在某個特定的時間間隔之后通常是晚上將數據返回關系型數據庫管理系統中心。接著,關系型數據庫管理系統將當天接收到的所有數據整合和分類之后,用于分析報表等操作,并且將其提供給外部及內部應用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....
摘要:在這些系統中,單個店鋪維護他們各自的庫存,然后在某個特定的時間間隔之后通常是晚上將數據返回關系型數據庫管理系統中心。接著,關系型數據庫管理系統將當天接收到的所有數據整合和分類之后,用于分析報表等操作,并且將其提供給外部及內部應用。 本文源地址:http://www.mongoing.com/blog/retail-reference-architecture-part-2-appr.....
摘要:驗證碼安全參考信息重放登錄注冊找密等入口,可能通過短信驗證碼郵箱驗證碼之類的進行確認操作,如果末對操作進行次數及頻率上的限制,則會產生大量的重放攻擊。高并發缺陷交易類重放攻擊,高并發的情況下末對用戶操作行為加鎖,導致購買限制的繞過。 showImg(https://segmentfault.com/img/bVBVVR); 業務安全從流程設計維度可劃分為賬戶體系安全、交易體系安全、支付...
摘要:當前,很多學者和研究機構都嘗試基于深度學習進行服裝檢索技術的探究與創新。下文將回顧三篇基于深度學習來解決跨域服裝檢索問題的文章。總的來說,以上深度學習方法的探索與創新都將為商品檢索技術趨 摘要商品檢索是一門綜合了物體檢測、 圖像分類以及特征學習的技術。 近期, 很多研究者成功地將深度學習方法應用到這個領域。 本文對這些方法進行了總結, 然后概括地提出了商品特征學習框架以及垂類數據挖掘方式, ...
閱讀 1772·2021-11-15 11:37
閱讀 3045·2021-11-04 16:05
閱讀 1910·2021-10-27 14:18
閱讀 2742·2021-08-12 13:30
閱讀 2486·2019-08-29 14:18
閱讀 2076·2019-08-29 13:07
閱讀 2005·2019-08-27 10:54
閱讀 2714·2019-08-26 12:15