摘要:但是手動(dòng)復(fù)制粘貼字典里的每一個(gè)鍵值對(duì)太費(fèi)事了一個(gè)不那么方便的解決方案用正則表達(dá)式或者直接字符串替換,把字符串直接轉(zhuǎn)化為字典,封裝成函數(shù)方便以后反復(fù)調(diào)用。有的人喜歡用這種方法,每次復(fù)制信息,然后調(diào)用自己封裝好的函數(shù),但我覺得還是挺麻煩的。
今天介紹個(gè)神奇的網(wǎng)站!堪稱爬蟲偷懶的神器!
我們?cè)趯懪老x,構(gòu)建網(wǎng)絡(luò)請(qǐng)求的時(shí)候,不可避免地要添加請(qǐng)求頭( headers ),以 mdn 學(xué)習(xí)區(qū)為例,我們的請(qǐng)求頭是這樣的:
一般來說,我們只要添加 user-agent 就能滿足絕大部分需求了,Python 代碼如下:
import requests headers = { #"authority": "developer.mozilla.org", #"pragma": "no-cache", #"cache-control": "no-cache", #"upgrade-insecure-requests": "1", "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 YaBrowser/19.7.0.1635 Yowser/2.5 Safari/537.36", #"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3", #"accept-encoding": "gzip, deflate, br", #"accept-language": "zh-CN,zh-TW;q=0.9,zh;q=0.8,en-US;q=0.7,en;q=0.6", #"cookie": 你的cookie, } response = requests.get("https://developer.mozilla.org/zh-CN/docs/learn", headers=headers)
但是有些請(qǐng)求,我們要把特定的 headers 參數(shù)添加上才能獲得正確的網(wǎng)絡(luò)響應(yīng),不知道哪個(gè)參數(shù)是必要的情況下,就要先把所有參數(shù)都添加上,再逐個(gè)排除。
但是手動(dòng)復(fù)制粘貼 headers 字典里的每一個(gè)鍵值對(duì)太費(fèi)事了
用正則表達(dá)式或者直接字符串替換,把 headers 字符串直接轉(zhuǎn)化為字典,封裝成函數(shù)方便以后反復(fù)調(diào)用。
有的人喜歡用這種方法,每次復(fù)制headers信息,然后調(diào)用自己封裝好的函數(shù),但我覺得還是挺麻煩的。
這里給大家介紹兩個(gè):
網(wǎng)站在線轉(zhuǎn)換
Postman
實(shí)戰(zhàn)演練抓取網(wǎng)站:https://developer.mozilla.org...
網(wǎng)站在線轉(zhuǎn)換1,Chrome 打開開發(fā)者選項(xiàng)( f12 )---> network 選項(xiàng)卡 ---> 刷新頁面,獲取請(qǐng)求 ---> 找到頁面信息對(duì)應(yīng)的請(qǐng)求 (通過請(qǐng)求的名稱、后綴和 response 內(nèi)容來判斷)
2,右鍵,copy ---> copy as cURL (bash),注意不是【copy as cURL (cmd)】
3,打開網(wǎng)站,https://curl.trillworks.com/,粘貼 cURL (bash) 到左邊 curl command,右邊會(huì)自動(dòng)出 Python 代碼
4,生成代碼如下圖
5,print ( response.text ) 就可以直接打印網(wǎng)頁源代碼啦!
Postman1,下載 postman ( Chrome 也有個(gè) postman 的插件,操作應(yīng)該差不多)
2,打開 postman,彈出的界面可以直接關(guān)掉
3,import --> paste raw text,在 Chrome 里復(fù)制 curl (bash),粘貼到下面的對(duì)話框里,點(diǎn)擊 import 按鈕
4,點(diǎn)擊 send,模擬網(wǎng)絡(luò)請(qǐng)求,下方可查看源代碼
5,確保源代碼正常后,點(diǎn)擊 code
6,左上角可以選擇編程語言,右上角復(fù)制到剪貼板
大功告成!
其實(shí)我本人平時(shí)都是用第一種,網(wǎng)站比較穩(wěn)定,基本沒出現(xiàn)過異常;有了這個(gè)神器就不用自己再構(gòu)造請(qǐng)求頭了,先一鍵生成,然后再根據(jù)需求調(diào)一調(diào)就好了,幾秒鐘就搞定了。建議收藏網(wǎng)址。
https://curl.trillworks.com/
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/45267.html
摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐。爬蟲腳本通常會(huì)很頻繁的進(jìn)行網(wǎng)絡(luò)請(qǐng)求,比如要爬取豆瓣排行榜的電影,就會(huì)連續(xù)發(fā)送個(gè)網(wǎng)絡(luò)請(qǐng)求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐...
摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐。爬蟲腳本通常會(huì)很頻繁的進(jìn)行網(wǎng)絡(luò)請(qǐng)求,比如要爬取豆瓣排行榜的電影,就會(huì)連續(xù)發(fā)送個(gè)網(wǎng)絡(luò)請(qǐng)求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐...
?????? ???Hello,大家好我叫是Dream呀,一個(gè)有趣的Python博主,小白一枚,多多關(guān)照??? ???CSDN Python領(lǐng)域新星創(chuàng)作者,大二在讀,歡迎大家找我合作學(xué)習(xí) ?入門須知:這片樂園從不缺乏天才,努力才是你的最終入場(chǎng)券!??? ?最后,愿我們都能在看不到的地方閃閃發(fā)光,一起加油進(jìn)步??? ???一萬次悲傷,依然會(huì)有Dream,我一直在最溫暖的地方等你,唱的就是我!哈哈哈~...
摘要:爬蟲神器,對(duì)加密降維打擊是對(duì)無頭瀏覽器的封裝。使用等其他無頭瀏覽器的最大優(yōu)勢(shì)當(dāng)然是對(duì)加密實(shí)行降維打擊,完全無視加密手段,對(duì)于一些需要登錄的應(yīng)用,也可以模擬點(diǎn)擊然后保存。請(qǐng)求過濾你的那一段頁面自動(dòng)下拉腳本 爬蟲神器pyppeteer,對(duì) js 加密降維打擊 pyppeteer?是對(duì)無頭瀏覽器?puppeteer的 Python 封裝。無頭瀏覽器廣泛用于自動(dòng)化測(cè)試,同時(shí)也是一種很好地爬蟲思...
摘要:定制篩選器,對(duì)內(nèi)容進(jìn)行篩選重點(diǎn)。審查元素這是瀏覽器自帶的工具,提供抓包和檢查網(wǎng)頁源碼的功能,供使用者分析網(wǎng)頁。超時(shí)設(shè)置,如果服務(wù)器在指定秒數(shù)內(nèi)沒有應(yīng)答,拋出異常,用于避免無響應(yīng)連接,整形或浮點(diǎn)數(shù)。返回連接狀態(tài),正常。 前言 python 3.6 !! 本爬蟲系列是面對(duì)有Python語法基礎(chǔ)的讀者寫的,如果你沒學(xué)過python,emmmm.....也沒關(guān)系,你或許能從每篇文章中學(xué)到一些...
閱讀 2686·2021-09-22 15:58
閱讀 2229·2019-08-29 16:06
閱讀 896·2019-08-29 14:14
閱讀 2810·2019-08-29 13:48
閱讀 2451·2019-08-28 18:01
閱讀 1495·2019-08-28 17:52
閱讀 3317·2019-08-26 14:05
閱讀 1610·2019-08-26 13:50