Python爬蟲偷懶神器 —— 一鍵構(gòu)造請(qǐng)求頭

charles_paul 發(fā)布于2019-07-31 11:31 / 3467人閱讀

摘要：但是手動(dòng)復(fù)制粘貼字典里的每一個(gè)鍵值對(duì)太費(fèi)事了一個(gè)不那么方便的解決方案用正則表達(dá)式或者直接字符串替換，把字符串直接轉(zhuǎn)化為字典，封裝成函數(shù)方便以后反復(fù)調(diào)用。有的人喜歡用這種方法，每次復(fù)制信息，然后調(diào)用自己封裝好的函數(shù)，但我覺得還是挺麻煩的。

今天介紹個(gè)神奇的網(wǎng)站！堪稱爬蟲偷懶的神器！

我們?cè)趯懪老x，構(gòu)建網(wǎng)絡(luò)請(qǐng)求的時(shí)候，不可避免地要添加請(qǐng)求頭( headers )，以 mdn 學(xué)習(xí)區(qū)為例，我們的請(qǐng)求頭是這樣的：

一般來說，我們只要添加 user-agent 就能滿足絕大部分需求了，Python 代碼如下：

import requests

headers = {
    #"authority": "developer.mozilla.org",
    #"pragma": "no-cache",
    #"cache-control": "no-cache",
    #"upgrade-insecure-requests": "1",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 YaBrowser/19.7.0.1635 Yowser/2.5 Safari/537.36",
    #"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    #"accept-encoding": "gzip, deflate, br",
    #"accept-language": "zh-CN,zh-TW;q=0.9,zh;q=0.8,en-US;q=0.7,en;q=0.6",
    #"cookie": 你的cookie,
}

response = requests.get("https://developer.mozilla.org/zh-CN/docs/learn", headers=headers)

但是有些請(qǐng)求，我們要把特定的 headers 參數(shù)添加上才能獲得正確的網(wǎng)絡(luò)響應(yīng)，不知道哪個(gè)參數(shù)是必要的情況下，就要先把所有參數(shù)都添加上，再逐個(gè)排除。

但是手動(dòng)復(fù)制粘貼 headers 字典里的每一個(gè)鍵值對(duì)太費(fèi)事了

一個(gè)不那么方便的解決方案：

用正則表達(dá)式或者直接字符串替換，把 headers 字符串直接轉(zhuǎn)化為字典，封裝成函數(shù)方便以后反復(fù)調(diào)用。

有的人喜歡用這種方法，每次復(fù)制headers信息，然后調(diào)用自己封裝好的函數(shù)，但我覺得還是挺麻煩的。

那么還有沒有快速一鍵生成 Python 爬蟲請(qǐng)求頭的方法呢？

這里給大家介紹兩個(gè)：

網(wǎng)站在線轉(zhuǎn)換

Postman

實(shí)戰(zhàn)演練

抓取網(wǎng)站：https://developer.mozilla.org...

網(wǎng)站在線轉(zhuǎn)換

1，Chrome 打開開發(fā)者選項(xiàng)（ f12 ）---> network 選項(xiàng)卡 ---> 刷新頁面,獲取請(qǐng)求 ---> 找到頁面信息對(duì)應(yīng)的請(qǐng)求 (通過請(qǐng)求的名稱、后綴和 response 內(nèi)容來判斷)

2，右鍵，copy ---> copy as cURL (bash)，注意不是【copy as cURL (cmd)】

3，打開網(wǎng)站，https://curl.trillworks.com/，粘貼 cURL (bash) 到左邊 curl command，右邊會(huì)自動(dòng)出 Python 代碼

4，生成代碼如下圖

5，print ( response.text ) 就可以直接打印網(wǎng)頁源代碼啦！

Postman

1，下載 postman ( Chrome 也有個(gè) postman 的插件，操作應(yīng)該差不多)

2，打開 postman，彈出的界面可以直接關(guān)掉

3，import --> paste raw text，在 Chrome 里復(fù)制 curl (bash)，粘貼到下面的對(duì)話框里，點(diǎn)擊 import 按鈕

4，點(diǎn)擊 send，模擬網(wǎng)絡(luò)請(qǐng)求，下方可查看源代碼

5，確保源代碼正常后，點(diǎn)擊 code

6，左上角可以選擇編程語言，右上角復(fù)制到剪貼板

大功告成！

其實(shí)我本人平時(shí)都是用第一種，網(wǎng)站比較穩(wěn)定，基本沒出現(xiàn)過異常；有了這個(gè)神器就不用自己再構(gòu)造請(qǐng)求頭了，先一鍵生成，然后再根據(jù)需求調(diào)一調(diào)就好了，幾秒鐘就搞定了。建議收藏網(wǎng)址。

https://curl.trillworks.com/

GPU云服務(wù)器云服務(wù)器 HTTP請(qǐng)求頭設(shè)置請(qǐng)求頭java java驗(yàn)證請(qǐng)求頭 asp獲取請(qǐng)求頭

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/45267.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

charles_paul

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

網(wǎng)絡(luò)主機(jī)是云什么-電信云主機(jī)是什么？

閱讀 2686·2021-09-22 15:58
前端性能優(yōu)化之Lazyload

閱讀 2229·2019-08-29 16:06
移動(dòng)端彈性滑動(dòng)以及vue記錄滑動(dòng)位置

閱讀 896·2019-08-29 14:14
底部菜單被輸入法頂上去的解決方案

閱讀 2810·2019-08-29 13:48
CSS學(xué)習(xí)筆記(三) CSS選擇器

閱讀 2451·2019-08-28 18:01
CSS 實(shí)現(xiàn) textArea 的 placeholder 換行

閱讀 1495·2019-08-28 17:52
重讀《學(xué)習(xí)JavaScript數(shù)據(jù)結(jié)構(gòu)與算法-第三版》- 第5章隊(duì)列

閱讀 3317·2019-08-26 14:05
Vue.js應(yīng)用性能優(yōu)化：第三部分-延遲加載Vuex模塊

閱讀 1610·2019-08-26 13:50

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

Python爬蟲偷懶神器 —— 一鍵構(gòu)造請(qǐng)求頭

一個(gè)不那么方便的解決方案：

那么還有沒有快速一鍵生成 Python 爬蟲請(qǐng)求頭的方法呢？

相關(guān)文章

爬蟲攻防實(shí)踐

爬蟲攻防實(shí)踐

爬蟲requests模塊入門到入獄：基礎(chǔ)知識(shí)+實(shí)戰(zhàn)分析

Python爬蟲神器pyppeteer，對(duì) js 加密降維打擊

Python 從零開始爬蟲(零)——爬蟲思路&requests模塊使用

發(fā)表評(píng)論

0條評(píng)論

charles_paul

男|高級(jí)講師

TA的文章

網(wǎng)絡(luò)主機(jī)是云什么-電信云主機(jī)是什么？

前端性能優(yōu)化之Lazyload

移動(dòng)端彈性滑動(dòng)以及vue記錄滑動(dòng)位置

底部菜單被輸入法頂上去的解決方案

CSS學(xué)習(xí)筆記(三) CSS選擇器

CSS 實(shí)現(xiàn) textArea 的 placeholder 換行

重讀《學(xué)習(xí)JavaScript數(shù)據(jù)結(jié)構(gòu)與算法-第三版》- 第5章隊(duì)列

Vue.js應(yīng)用性能優(yōu)化：第三部分-延遲加載Vuex模塊

最新活動(dòng)