爬蟲學(xué)習(xí)筆記

zeyu 發(fā)布于2019-08-26 12:19 / 2606人閱讀

摘要：判斷要爬取的頁面是結(jié)構(gòu)還是結(jié)構(gòu)，就用檢查里找到的節(jié)點(diǎn)屬性名，去源代碼里面搜索。

1.判斷要爬取的頁面是html結(jié)構(gòu)還是json結(jié)構(gòu)，就用檢查里找到的節(jié)點(diǎn)屬性名，去源代碼里面搜索。查看網(wǎng)頁源代碼，如果是有清楚html標(biāo)簽的則為html結(jié)構(gòu)，如：

而如果是這樣的，則為json,如：

html結(jié)合直接使用網(wǎng)頁標(biāo)題作為url，使用html = etree.HTML(res.text)來整理頁面結(jié)構(gòu)；
而如果是json的話，則需要到「檢查」-「NetWork」里面找到對應(yīng)的加載頁面，使用加載頁面對應(yīng)的鏈接作為url，然后使用json_data = json.loads(res.text)整理頁面結(jié)構(gòu)。

GPU云服務(wù)器云服務(wù)器學(xué)習(xí)筆記學(xué)習(xí)筆記一基礎(chǔ)學(xué)習(xí)筆記深度學(xué)習(xí)筆記

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/108480.html

相關(guān)文章

SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧

摘要：學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀，它提供了一些方法用于檢測形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換，簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機(jī)制，并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言開始之前，我們先來看這樣一個提問： pyth...

lifesimple 2019-07-30 14:22 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時(shí)間永遠(yuǎn)都過得那么快，一晃從年注冊，到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂，橡皮擦給設(shè)置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
學(xué)習(xí)筆記 | HTML 基本結(jié)構(gòu)和基本標(biāo)簽 ——前端學(xué)習(xí)第一步！

摘要：基本結(jié)構(gòu)語言中，一個頁面是由四個部分組成文檔聲明標(biāo)簽對標(biāo)簽對標(biāo)簽對圖示文檔聲明這是一個文檔聲明，表示這是一個頁面。標(biāo)簽標(biāo)簽表示頁面內(nèi)容的范圍。 HTML HTML ...

sPeng 2021-09-30 09:48 評論0 收藏0
Python爬蟲筆記1-爬蟲背景了解

摘要：學(xué)習(xí)爬蟲的背景了解。但是搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的，它需要遵從一些命令或文件的內(nèi)容，如標(biāo)注為的鏈接，或者是協(xié)議。不同領(lǐng)域不同背景的用戶往往具有不同的檢索目的和需求，搜索引擎無法提供針對具體某個用戶的搜索結(jié)果。學(xué)習(xí)python爬蟲的背景了解。大數(shù)據(jù)時(shí)代數(shù)據(jù)獲取方式如今，人類社會已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代，數(shù)據(jù)已經(jīng)成為必不可少的部分，可見數(shù)據(jù)的獲取非常重要，而數(shù)據(jù)的獲取的方式...

oujie 2019-07-31 10:02 評論0 收藏0
一名爬蟲工程師的運(yùn)維入門之路：IPy學(xué)習(xí)筆記

摘要：多學(xué)習(xí)總沒錯。。。簡介模塊包含類，可以方便的處理絕大部分個是為和的網(wǎng)絡(luò)和地址。判斷網(wǎng)段是否重疊多學(xué)習(xí)總沒錯。。。 IPy簡介： IPy模塊包含IP類，可以方便的處理絕大部分個是為IPv6和IPv4的網(wǎng)絡(luò)和地址。可以通過version方法就可以分出IPv4和IPv6 IPy方法： from IPy import IP ip = IP(192.168.1.20) print(i...

flybywind 2019-07-30 18:37 評論0 收藏0