爬蟲(chóng)入門(mén)到精通-網(wǎng)頁(yè)的下載

JerryZou 發(fā)布于2019-07-25 11:46 / 2234人閱讀

摘要：網(wǎng)頁(yè)的下載本文章屬于爬蟲(chóng)入門(mén)到精通系統(tǒng)教程第四講在爬蟲(chóng)入門(mén)到精通第二講中，我們了解了協(xié)議，那么我們現(xiàn)在使用這些協(xié)議來(lái)快速爬蟲(chóng)吧本文的目標(biāo)當(dāng)你看完本文后，你應(yīng)該能爬取幾乎任何的網(wǎng)頁(yè)使用抓包抓包就是將網(wǎng)絡(luò)傳輸發(fā)送與接收的數(shù)據(jù)包進(jìn)行截獲重發(fā)編輯轉(zhuǎn)

網(wǎng)頁(yè)的下載

本文章屬于爬蟲(chóng)入門(mén)到精通系統(tǒng)教程第四講

在爬蟲(chóng)入門(mén)到精通第二講中，我們了解了HTTP協(xié)議，那么我們現(xiàn)在使用這些協(xié)議來(lái)快速爬蟲(chóng)吧

本文的目標(biāo)

當(dāng)你看完本文后，你應(yīng)該能爬取（幾乎）任何的網(wǎng)頁(yè)

使用chrome抓包

抓包（packet capture）就是將網(wǎng)絡(luò)傳輸發(fā)送與接收的數(shù)據(jù)包進(jìn)行截獲、重發(fā)、編輯、轉(zhuǎn)存等操作，也用來(lái)檢查網(wǎng)絡(luò)安全。抓包也經(jīng)常被用來(lái)進(jìn)行數(shù)據(jù)截取等。

第一個(gè)案列：抓取輪子哥的動(dòng)態(tài)

打開(kāi)輪子哥動(dòng)態(tài)這個(gè)網(wǎng)頁(yè)

打開(kāi)抓包工具

點(diǎn)擊F12打開(kāi)開(kāi)發(fā)者工具

點(diǎn)擊Network(或者網(wǎng)絡(luò))

按F5刷新下頁(yè)面（主要是讓請(qǐng)求重發(fā)一次，這樣就能抓到包了）

應(yīng)該會(huì)看到如下界面

找到我們需要的請(qǐng)求

可以看到如下截圖，里面有這么多的請(qǐng)求，那么到底哪一個(gè)才是我們需要的呢？

這邊提供一個(gè)小技巧

當(dāng)你要抓的包是需要按F5刷新才出來(lái)的，一般我們需要的請(qǐng)求都在DOC里面(整個(gè)頁(yè)面有刷新)

當(dāng)你要抓的包是點(diǎn)擊按鈕"加載更多"(或者拖到頁(yè)面最下面會(huì)自動(dòng)加載的,整個(gè)頁(yè)面并沒(méi)有刷新）一般我們需要的請(qǐng)求都在XHR里面

簡(jiǎn)單來(lái)講就是如果整個(gè)頁(yè)面沒(méi)有刷新的話，那就是在XHR里面，否則在DOC里面

因?yàn)楸敬巫グ麄€(gè)頁(yè)面有刷新，所以，我們需要找的請(qǐng)求在DOC下面，可以看到只有一個(gè)請(qǐng)求

驗(yàn)證請(qǐng)求是對(duì)的

有以下兩種方法（基本上用1，因?yàn)楸容^快）

在我們要抓包的頁(yè)面隨便copy出幾個(gè)字，在Respoinse中使用ctrl+f 查找，如果有找到，說(shuō)明我們找到的是對(duì)的（我查找的是"和微軟粉絲談"）

把response中所有的內(nèi)容復(fù)制到一個(gè)txt中，并改名為"#.html"(這里的#可以隨便取)然后打開(kāi)這個(gè)html，看看是否和我們要抓的一樣

如果發(fā)現(xiàn)要找的不對(duì)，那你可以打開(kāi)下一個(gè)請(qǐng)求檢查下

模擬發(fā)送

點(diǎn)擊Headers

可以看到請(qǐng)求的url是： https://www.zhihu.com/people/...

方法是： GET

requests headers 是（下圖中框出來(lái)的地方）

所以我們的代碼應(yīng)該是：

import requests

# 這里的headers就是我們上圖框中的headers
request_headers = {        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",   
    "Accept-Encoding":"gzip, deflate, sdch, br",
    "Accept-Language":"zh-CN,zh;q=0.8",
    "Cache-Control":"max-age=0",
    "Connection":"keep-alive",
    "Cookie":"",
    "Host":"www.zhihu.com",
    "Referer":"https://www.zhihu.com/",
    "Upgrade-Insecure-Requests":"1",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
}
#上圖中的url
url = "https://www.zhihu.com/people/excited-vczh/activities"
# 上圖中的請(qǐng)求方法（get）
z = requests.get(url,headers=request_headers)
print z.content

這段代碼簡(jiǎn)單來(lái)說(shuō)就是把我們抓包看到的用程序來(lái)實(shí)現(xiàn)

一個(gè)小總結(jié)

我們爬取一個(gè)網(wǎng)頁(yè)的步驟可以分為如下：

打開(kāi)要爬取的網(wǎng)頁(yè)

打開(kāi)開(kāi)發(fā)者工具，并讓請(qǐng)求重發(fā)一次（簡(jiǎn)單講就是抓包）

找到正確的請(qǐng)求

用程序模擬發(fā)送

第二個(gè)案列：點(diǎn)贊

1.打開(kāi)要爬取的網(wǎng)頁(yè)

我們打開(kāi) "知乎 - 與世界分享你的知識(shí)、經(jīng)驗(yàn)和見(jiàn)解"

我們要點(diǎn)贊的回答是這個(gè)

2.打開(kāi)開(kāi)發(fā)者工具，并讓請(qǐng)求重發(fā)一次

打開(kāi)后"點(diǎn)擊贊一下",可以看到有好多請(qǐng)求

3.找到正確的請(qǐng)求

我們一個(gè)一個(gè)的點(diǎn)開(kāi)請(qǐng)求看，發(fā)現(xiàn)就一個(gè)有返回值，而且這個(gè)返回值沒(méi)有意義，那么怎么確定這個(gè)就是我們要找的呢？

我們可以點(diǎn)擊Headers，看一下發(fā)送的參數(shù)

vote_up 很明顯，就是點(diǎn)贊的意思。所以這個(gè)應(yīng)該就是我們要找的。

這邊說(shuō)一下，右邊"Headers,Preview,Response,Cookies,Timing"是什么意思

我們經(jīng)常要看的有，headers 和 preview

headers 里面我們都有介紹過(guò)（請(qǐng)求頭，返回頭）

preview和response里面的內(nèi)容是相同的（preview里面的內(nèi)容格式化了，輸出的好看一些），里面的內(nèi)容是html返回值

cookies 里面是cookie的值，只不過(guò)分成了key value的形式

Timing基本用不上,所以也不介紹了（想了解的話可以自己百度...）

4.用程序模擬發(fā)送

我們把headers全部copy，

url也和上面一樣

參數(shù)也是對(duì)的

請(qǐng)求方法是post

但是發(fā)現(xiàn)最終返回http code 400,這是為什么呢？

讓我們留到后面講解~

最后再次總結(jié)一下

看完本篇文章后，你應(yīng)該要

能學(xué)會(huì)抓包

最后大家可以抓一下知乎登錄的包哦~

小提示：當(dāng)你要抓的網(wǎng)頁(yè)是會(huì)自動(dòng)跳轉(zhuǎn)的話，那么你需要選中“proserve log”

意思是不要在頁(yè)面重新加載后清除log（抓知乎登錄的包會(huì)用到）

最后的最后，收藏的大哥們，能幫忙點(diǎn)個(gè)贊么~

GPU云服務(wù)器云服務(wù)器 javascript從入門(mén)到精通下載精通android入門(mén)到精通前端入門(mén)到精通 webrtc入門(mén)到精通

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/38594.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

JerryZou

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

LeetCode 423 從英文中重建數(shù)字[數(shù)組] HERODING的LeetCode之路

閱讀 1231·2021-11-25 09:43
21_09_25 C語(yǔ)言雜談

閱讀 1342·2021-09-26 09:55
搬瓦工VPS：高端線路，助力企業(yè)運(yùn)營(yíng)，10Gbps美國(guó) cn2 gia，1Gbps香港cn2 gia

閱讀 2340·2021-09-10 11:20
前端基礎(chǔ)_CSS

閱讀 3370·2019-08-30 15:55
簡(jiǎn)解Css3 - linear-gradient

閱讀 1448·2019-08-29 13:58
H5屏幕適配小總結(jié)

閱讀 1172·2019-08-29 12:36
《CSS揭秘》：切角效果

閱讀 2348·2019-08-29 11:18
ES6入門(mén)到進(jìn)階（二）：循環(huán)、數(shù)組、對(duì)象

閱讀 3413·2019-08-26 11:47

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)入門(mén)到精通-網(wǎng)頁(yè)的下載

相關(guān)文章

爬蟲(chóng)入門(mén)到精通-網(wǎng)頁(yè)的解析（正則）

爬蟲(chóng)入門(mén)到精通-網(wǎng)頁(yè)的解析（xpath）

爬蟲(chóng)入門(mén)到精通-開(kāi)始爬蟲(chóng)之旅

爬蟲(chóng)入門(mén)到精通-環(huán)境的搭建

爬蟲(chóng)入門(mén)到精通-HTTP協(xié)議的講解

發(fā)表評(píng)論

0條評(píng)論

JerryZou

男|高級(jí)講師

TA的文章

LeetCode 423 從英文中重建數(shù)字[數(shù)組] HERODING的LeetCode之路

21_09_25 C語(yǔ)言雜談

搬瓦工VPS：高端線路，助力企業(yè)運(yùn)營(yíng)，10Gbps美國(guó) cn2 gia，1Gbps香港cn2 gia

前端基礎(chǔ)_CSS

簡(jiǎn)解Css3 - linear-gradient

H5屏幕適配小總結(jié)

《CSS揭秘》：切角效果

ES6入門(mén)到進(jìn)階（二）：循環(huán)、數(shù)組、對(duì)象

最新活動(dòng)