Chrome開發(fā)者工具，爬蟲必備，解決一半的問題

jiekechoo 發(fā)布于2019-07-30 18:33 / 2512人閱讀

摘要：但這邊特別提醒的是里看到的代碼不等于請(qǐng)求網(wǎng)址拿到的返回值。這個(gè)文件包含了列表中所有請(qǐng)求的各項(xiàng)參數(shù)及返回值信息，以便你查找分析。理解了這幾步，大部分網(wǎng)上的數(shù)據(jù)都可以拿到，說解決一半的問題可不是標(biāo)題黨。

網(wǎng)上爬蟲的教程實(shí)在太多了，知乎上搜一下，估計(jì)能找到不下一百篇。大家樂此不疲地從互聯(lián)網(wǎng)上抓取著一個(gè)又一個(gè)網(wǎng)站。但只要對(duì)方網(wǎng)站一更新，很可能文章里的方法就不再有效了。

每個(gè)網(wǎng)站抓取的代碼各不相同，不過背后的原理是相通的。對(duì)于絕大部分網(wǎng)站來說，抓取的套路就那么一些。今天這篇文章不談任何具體網(wǎng)站的抓取，只來說一個(gè)共性的東西：

如何通過 Chrome 開發(fā)者工具 尋找一個(gè)網(wǎng)站上特定數(shù)據(jù)的抓取方式。

（我這里演示的是 Mac 上的英文版 Chrome，Windows 中文版的使用方法是一樣的。）

> 查看網(wǎng)頁(yè)源代碼

在網(wǎng)頁(yè)上右擊鼠標(biāo)，選擇“ 查看網(wǎng)頁(yè)源代碼 ”（ View Page Source ），就會(huì)在新標(biāo)簽頁(yè)中顯示這個(gè) URL 對(duì)應(yīng)的 HTML 代碼文本。

此功能并不算是“開發(fā)者工具”一部分，但也很常用。這個(gè)內(nèi)容和你直接通過代碼向此 URL 發(fā)送 GET 請(qǐng)求得到的結(jié)果是一樣的（不考慮權(quán)限問題）。如果在這個(gè)源代碼頁(yè)面上可以搜索到你要內(nèi)容，則可以按照其規(guī)則，通過 正則、bs4、xpath 等方式對(duì)文本中的數(shù)據(jù)進(jìn)行提取。

不過，對(duì)于很多異步加載數(shù)據(jù)的網(wǎng)站，從這個(gè)頁(yè)面上并不能搜到你要的東西?；蛘咭?yàn)闄?quán)限、驗(yàn)證等限制，代碼中獲取到的結(jié)果和頁(yè)面顯示不一致。這些情況我們就需要更強(qiáng)大的開發(fā)者工具來幫忙了。

> Elements

在網(wǎng)頁(yè)上右擊鼠標(biāo)，選擇“ 審查元素 ”（ Inspect ），可進(jìn)入 Chrome 開發(fā)者工具的 元素選擇器 。在工具中是 Elements 標(biāo)簽頁(yè)。

Elements 有幾個(gè)功能：

選擇元素 ：通過鼠標(biāo)去選擇頁(yè)面上某個(gè)元素，并定位其在代碼中的位置。

模擬器 ：模擬不同設(shè)備的顯示效果，且可以模擬帶寬。

代碼區(qū) ：顯示頁(yè)面代碼，以及選中元素對(duì)應(yīng)的路徑

樣式區(qū) ：顯示選中元素所受的 CSS 樣式影響

從 Elements 工具里定位數(shù)據(jù)比我們前面直接在源代碼中搜索要方便，因?yàn)槟憧梢郧宄吹剿幍脑亟Y(jié)構(gòu)。但這邊特別提醒的是：

Elements 里看到的代碼不等于請(qǐng)求網(wǎng)址拿到的返回值 。

它是網(wǎng)頁(yè)經(jīng)過瀏覽器渲染后最終呈現(xiàn)出的效果，包含了異步請(qǐng)求數(shù)據(jù)，以及瀏覽器自身對(duì)于代碼的優(yōu)化改動(dòng)。所以，你并不能完全按照 Elements 里顯示的結(jié)構(gòu)來獲取元素，那樣的話很可能得不到正確的結(jié)果。

> Network

在開發(fā)者工具里選擇 Network 標(biāo)簽頁(yè)就進(jìn)入了網(wǎng)絡(luò)監(jiān)控功能，也就是常說的“ 抓包 ”。

這是爬蟲所用到的最重要功能。它主要解決兩個(gè)問題：

抓什么

怎么抓

抓什么 ，是指對(duì)于那些通過異步請(qǐng)求獲取到的數(shù)據(jù)，如何找到其來源。

打開 Network 頁(yè)面，開啟記錄，然后刷新頁(yè)面，就可以看到發(fā)出的所有請(qǐng)求，包括數(shù)據(jù)、JS、CSS、圖片、文檔等等都會(huì)顯示其中。從請(qǐng)求列表中可以尋找你的目標(biāo)。

一個(gè)個(gè)去找會(huì)很痛苦。分享幾個(gè)小技巧：

點(diǎn)擊“ 搜索 ”功能，直接對(duì)內(nèi)容進(jìn)行查找。

選中 Preseve log ，這樣頁(yè)面刷新和跳轉(zhuǎn)之后，列表不會(huì)清空。

Filter 欄 可以按類型和關(guān)鍵字篩選請(qǐng)求。

找到包含數(shù)據(jù)的請(qǐng)求之后，接下來就是用程序獲取數(shù)據(jù)。這時(shí)就是第二個(gè)問題： 怎么抓 。

并不是所有 URL 都能直接通過 GET 獲?。ㄏ喈?dāng)于在瀏覽器里打開地址），通常還要考慮這幾樣?xùn)|西：

請(qǐng)求方法 ，是 GET 還是 POST。

請(qǐng)求附帶的參數(shù)數(shù)據(jù) 。GET 和 POST 傳遞參數(shù)的方法不一樣。

Headers 信息 。常用的包括 user-agent、host、referer、cookie 等。其中 cookie 是用來識(shí)別請(qǐng)求者身份的關(guān)鍵信息，對(duì)于需要登錄的網(wǎng)站，這個(gè)值少不了。而另外幾項(xiàng)，也經(jīng)常會(huì)被網(wǎng)站用來識(shí)別請(qǐng)求的合法性。同樣的請(qǐng)求，瀏覽器里可以，程序里不行，多半就是 Headers 信息不正確。你可以從 Chrome 上把這些信息照搬到程序里，以此繞過對(duì)方的限制。

點(diǎn)擊列表中的一個(gè)具體請(qǐng)求，上述信息都可以找到。

找對(duì) 請(qǐng)求 ，設(shè)對(duì) 方法，傳對(duì) 參數(shù) 以及 Headers 信息，大部分的網(wǎng)站上的信息都可以搞定了。

Network 還有個(gè)功能：右鍵點(diǎn)擊列表，選擇“ Save as HAR with content ”，保存到文件。這個(gè)文件包含了列表中 所有請(qǐng)求的各項(xiàng)參數(shù)及返回值信息 ，以便你查找分析。（實(shí)際操作中，我發(fā)現(xiàn)經(jīng)常有直接搜索無效的情況，只能保存到文件后搜索）

除了 Elements 和 Network，開發(fā)者工具中還有一些功能，比如：

Sources ，查看資源列表和調(diào)試 JS。

Console ，顯示頁(yè)面的報(bào)錯(cuò)和輸出，并且可以執(zhí)行 JS 代碼。很多網(wǎng)站會(huì)在這里放上招聘的彩蛋（自己多找些知名網(wǎng)站試試）。

但這些功能和爬蟲關(guān)系不大。如果你開發(fā)網(wǎng)站和優(yōu)化網(wǎng)站速度，就需要和其他功能打交道。這里就不多說了。

總結(jié)一下，其實(shí)你就記住這幾點(diǎn)：

“ 查看源代碼 ”里能看到的數(shù)據(jù)，可以直接通過程序請(qǐng)求當(dāng)前 URL 獲取。

Elements 里的 HTML 代碼 不等于 請(qǐng)求返回值，只能作為輔助。

在 Network 里用內(nèi)容關(guān)鍵字搜索，或保存成 HAR 文件后搜索，找到包含數(shù)據(jù)的實(shí)際請(qǐng)求

查看請(qǐng)求的具體信息，包括 方法、headers、參數(shù) ，復(fù)制到程序里使用。

理解了這幾步，大部分網(wǎng)上的數(shù)據(jù)都可以拿到，說“解決一半的問題”可不是標(biāo)題黨。

當(dāng)然咯，說起來輕松幾點(diǎn)，想熟練掌握，還是有很多細(xì)節(jié)要考慮，需要不斷練習(xí)。但帶著這幾點(diǎn)再去看各種爬蟲案例，思路會(huì)更清晰。

如果你想要針對(duì)爬蟲更詳細(xì)的講解和指導(dǎo)，我們的“ 爬蟲實(shí)戰(zhàn) ”課程了解一下，也有面向零基礎(chǔ)的入門課程。

課程詳情公眾號(hào)（Crossin的編程教室）里回復(fù) 碼上行動(dòng)

════
其他文章及回答：

歡迎搜索及關(guān)注： Crossin的編程教室

GPU云服務(wù)器云服務(wù)器開發(fā)者必備工具安卓開發(fā)必備工具 ios開發(fā)必備工具 java開發(fā)必備工具

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/42649.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

jiekechoo

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

拉勾Linux運(yùn)維實(shí)戰(zhàn)訓(xùn)練營(yíng)

閱讀 3338·2021-11-22 15:22
是學(xué)Java好呢？還是學(xué)C++更有前途？

閱讀 2862·2021-10-12 10:12
SpinServers：美國(guó)高配服務(wù)器4路e5-4640v2(40核/80線程)、768G內(nèi)存、4*

閱讀 2156·2021-08-21 14:10
cubecloud，6周年，洛杉磯新品VPS5折(三網(wǎng)回程AS4837)，中國(guó)香港CN2/美國(guó)CN2

閱讀 3822·2021-08-19 11:13
CSS選擇器的分類

閱讀 2841·2019-08-30 15:43
python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁(yè)設(shè)計(jì)<二>

閱讀 3223·2019-08-29 16:52
css3 做一個(gè)類似于翻書特效的3D動(dòng)畫

閱讀 438·2019-08-29 16:41
100行l(wèi)ess實(shí)現(xiàn)bootstrap的12柵格布局

閱讀 1427·2019-08-29 12:53

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Chrome開發(fā)者工具，爬蟲必備，解決一半的問題

相關(guān)文章

如何用Python抓抖音上的小姐姐

BeautifulSoup：網(wǎng)頁(yè)解析利器上手簡(jiǎn)介

一鍵下載：將知乎專欄導(dǎo)出成電子書

我，27歲，程序員，10月無情被辭：想給學(xué)python的人提個(gè)醒......

記一次還可以搶救一下的爬蟲私活，求接盤!

發(fā)表評(píng)論

0條評(píng)論

jiekechoo

男|高級(jí)講師

TA的文章

拉勾Linux運(yùn)維實(shí)戰(zhàn)訓(xùn)練營(yíng)

是學(xué)Java好呢？還是學(xué)C++更有前途？

SpinServers：美國(guó)高配服務(wù)器4路e5-4640v2(40核/80線程)、768G內(nèi)存、4*

cubecloud，6周年，洛杉磯新品VPS5折(三網(wǎng)回程AS4837)，中國(guó)香港CN2/美國(guó)CN2

CSS選擇器的分類

python大佬養(yǎng)成計(jì)劃----HTML網(wǎng)頁(yè)設(shè)計(jì)<二>

css3 做一個(gè)類似于翻書特效的3D動(dòng)畫

100行l(wèi)ess實(shí)現(xiàn)bootstrap的12柵格布局

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Chrome開發(fā)者工具，爬蟲必備，解決一半的問題

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Chrome開發(fā)者工具，爬蟲必備，解決一半的問題