Python 從零開始爬蟲(零)——爬蟲思路&requests模塊使用

YanceyOfficial 發(fā)布于2019-07-30 16:10 / 1247人閱讀

摘要：定制篩選器，對內(nèi)容進(jìn)行篩選重點。審查元素這是瀏覽器自帶的工具，提供抓包和檢查網(wǎng)頁源碼的功能，供使用者分析網(wǎng)頁。超時設(shè)置，如果服務(wù)器在指定秒數(shù)內(nèi)沒有應(yīng)答，拋出異常，用于避免無響應(yīng)連接，整形或浮點數(shù)。返回連接狀態(tài)，正常。

前言

python 3.6 ！！

本爬蟲系列是面對有Python語法基礎(chǔ)的讀者寫的，如果你沒學(xué)過python，emmmm.....也沒關(guān)系，你或許能從每篇文章中學(xué)到一些爬蟲的思路；如果你的python基礎(chǔ)語法已經(jīng)應(yīng)用自如，那是極好的。

本系列的教程和實例均總結(jié)于筆者的自學(xué)經(jīng)歷，如有不足歡迎指正和討論，問題我會盡量回復(fù)，也希望大家能有所收獲。

爬蟲真好玩.jpg

廢話不多說，趕緊開始這條不歸路吧

爬蟲思路

無思路不成器，如果你怎么想都想不出爬蟲的原理，不妨來看下我們平時是如何上網(wǎng)的，大概就是這樣：
?? ①點開目標(biāo)網(wǎng)址→→[可選：登錄/回復(fù)]→→②瀏覽全頁篩選出價值內(nèi)容→→③如果很喜歡，還會拷貝下載回來

所以爬蟲歸結(jié)起來也就這幾步：

構(gòu)造目標(biāo)網(wǎng)址（重點）

發(fā)起請求（request），相當(dāng)于點開網(wǎng)頁。

獲取網(wǎng)頁內(nèi)容（坑）。

定制篩選器，對內(nèi)容進(jìn)行篩選（重點）。

把爬取結(jié)果保存到容器里。

本節(jié)學(xué)習(xí)的requests模塊將會實現(xiàn)二，三步，其他步驟和注意事項將會在后續(xù)文章中展示出來。

F12審查元素

這是瀏覽器自帶的工具，提供抓包和檢查網(wǎng)頁源碼的功能，供使用者分析網(wǎng)頁。也是學(xué)爬蟲必須要學(xué)會的工具，一個優(yōu)秀的蟲爸/蟲媽應(yīng)該花更多的時間在網(wǎng)頁分析和debug上。

使用非常簡單，打開任一瀏覽器（筆者的是google chrome），按F12或鼠標(biāo)右鍵檢查。

選擇Element是查看網(wǎng)頁源碼，是樹結(jié)構(gòu)的html文檔，里面有要爬取的內(nèi)容。

選擇Network是查看本地和服務(wù)器端交互的包，可以從中獲取目標(biāo)網(wǎng)址和headers。

requests模塊

為什么選擇requests，因為它能完全勝任python自帶的urllib模塊，簡化了不必要的功能的同時讓使用更加簡單。

安裝

非常簡單，打開cmd，直接pip安裝

pip install requests

或pycharm中搜索requests安裝

簡單使用

首先呈上官方文檔，有中文版，歡迎來啃。
下面主要介紹兩種方法：get和post

get，就是本地向服務(wù)器索取的意思，服務(wù)器檢查請求頭（request headers）后，如果覺得沒問題，就會返回信息給本地。

r = requests.get(url,**args)#返回一個Response對象，我們可以從這個對象中獲取所有我們想要的信息

post，就是本地要向服務(wù)器提交一些數(shù)據(jù)的意思，服務(wù)器還是會檢查請求頭，如果提交的數(shù)據(jù)和請求頭都沒問題，就會返回信息給本地。

r = requests.post(url,**args)#也是返回Response對象

參數(shù)詳解

get和post方法中有許多參數(shù)可以使用，部分參數(shù)后面會詳解。

url：就是目標(biāo)網(wǎng)址，接收完整（帶http）的地址字符串。

headers：請求頭，存儲本地信息如瀏覽器版本，是一個字典。

data：要提交的數(shù)據(jù)，字典。

cookies：cookies，字典。

timeout：超時設(shè)置，如果服務(wù)器在指定秒數(shù)內(nèi)沒有應(yīng)答，拋出異常，用于避免無響應(yīng)連接，整形或浮點數(shù)。

params：為網(wǎng)址添加條件數(shù)據(jù)，字典。

payload = {"key1": "value1", "key2": "value2"}
r = requests.get("http://httpbin.org/get", params=payload)
#相當(dāng)于目標(biāo)網(wǎng)址變成了http://httpbin.org/get?key2=value2&key1=value1

proxies：ip代理時使用，字典。

Response對象使用

從這個對象中獲取所有我們想要的信息非常簡單，畢竟爬蟲要的數(shù)據(jù)主要就三種，html源碼，圖片二進(jìn)制數(shù)據(jù)，json數(shù)據(jù)，Response對象一次性滿足你三個愿望。

r.encoding = "ISO-8859-1"    #指定r.text返回的數(shù)據(jù)類型，寫在r.text之前。
r.text    #默認(rèn)以unicode形式返回網(wǎng)頁內(nèi)容，也就是網(wǎng)頁源碼的字符串。

r.content    #以二進(jìn)制形式返回網(wǎng)頁內(nèi)容，下載圖片時專用。
r.json()    #把網(wǎng)頁中的json數(shù)據(jù)轉(zhuǎn)成字典并將其返回。

#還有一些很少用到的方法。
r.headers    #返回服務(wù)器端的headers，字典。
r.status_code    #返回連接狀態(tài)，200正常。

小實例

requests 學(xué)完后就可以到處試試了，如果紅了（拋出異常），那大概是服務(wù)器拒絕你了，畢竟偽裝什么的還沒提到，服務(wù)器知道你是蟲子就把你踢掉了。

import requests
r = requets.get("http://cn.python-requests.org/zh_CN/latest/")
with open("test.txt","w",encoding = "utf-8") as file:#編碼要對應(yīng)
    file.write(r.text)
    #然后打開看看吧，是不是和F12看到的源碼一樣，只不過是把分支全展開了而已。

小提示：并不是所有網(wǎng)站的F12源碼和爬取源碼是一致的，網(wǎng)站有動態(tài)的，也有靜態(tài)的；有防爬蟲的，也有敞開大門任意爬的。關(guān)于對策之后會講到。

第一次寫文章，挺累的，我需要做(wan)幾(ji)道(pan)數(shù)(you)學(xué)(xi)題放松一下自己才行。

GPU云服務(wù)器云服務(wù)器從零開始學(xué)python網(wǎng)絡(luò)爬蟲 python從零開始從零開始學(xué)python 從零開始

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/41526.html

發(fā)表評論

登陸后可評論

0條評論

YanceyOfficial

男|高級講師

我要關(guān)注我要私信

TA的文章

Datawhale刷題LeetCode

閱讀 1105·2021-11-16 11:45
C語言：深度刨析數(shù)據(jù)在內(nèi)存中的存儲——浮點型數(shù)據(jù)

閱讀 3124·2021-10-13 09:40
JavaScript 轉(zhuǎn)換數(shù)字為整數(shù)的方法

閱讀 714·2019-08-26 13:45
我為 VS Code 開發(fā)了一個 Deno 插件

閱讀 1188·2019-08-26 13:32
JSON 格式

閱讀 2167·2019-08-26 13:23
Generator：JS執(zhí)行權(quán)的真實操作者

閱讀 911·2019-08-26 12:16
正則基礎(chǔ)詳解

閱讀 2823·2019-08-26 11:37
前端面試每日3+1——第109天

閱讀 1748·2019-08-26 10:32

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python 從零開始爬蟲(零)——爬蟲思路&requests模塊使用

相關(guān)文章

Python 從零開始爬蟲(一)——爬蟲偽裝&反“反爬”

Python 從零開始爬蟲(五)——初遇json&爬取某寶商品信息

Python 從零開始爬蟲(三)——實戰(zhàn)：requests+BeautifulSoup實現(xiàn)靜態(tài)爬取

Python爬蟲建站入門手記——從零開始建立采集站點（二：編寫爬蟲）

從零開始打造個人專屬命令行工具集——yargs完全指南

發(fā)表評論

0條評論

YanceyOfficial

男|高級講師

TA的文章

Datawhale刷題LeetCode

C語言：深度刨析數(shù)據(jù)在內(nèi)存中的存儲——浮點型數(shù)據(jù)

JavaScript 轉(zhuǎn)換數(shù)字為整數(shù)的方法

我為 VS Code 開發(fā)了一個 Deno 插件

JSON 格式

Generator：JS執(zhí)行權(quán)的真實操作者

正則基礎(chǔ)詳解

前端面試每日3+1——第109天

最新活動