爬蟲(chóng)學(xué)習(xí)（二）基礎(chǔ)階段

xiaoqibTn 發(fā)布于2019-07-31 10:29 / 2950人閱讀

摘要：如果要添加該參數(shù)，并且如果它是字節(jié)流編碼格式的內(nèi)容，即類型，則需要通過(guò)方法轉(zhuǎn)化。通過(guò)的格式將字典進(jìn)行字節(jié)流的編碼，將編碼后的字節(jié)流數(shù)據(jù)傳輸?shù)街付ㄟ@里存在一個(gè)，要進(jìn)行指定方式解碼。第二個(gè)參數(shù)如果要傳，必須傳字節(jié)流類型的。

請(qǐng)求頭中的內(nèi)容：

Date: 標(biāo)識(shí) 響應(yīng)產(chǎn)生的時(shí)間。

Last-Modified: 指定資源的最后修改時(shí)間。

Content-Encoding: 指定響應(yīng) 內(nèi)容的編碼。

Server: 包含服務(wù)器的信息，比如名稱、版本號(hào)等。

Content-Type: 文檔類型，指定返回的數(shù)據(jù)類型是什么，如 text/html代表返回 HTML文檔，

application/x-javascript !J!U代表返回 JavaScript文件， image/jpeg則代表返回圖片。

Set-Cookie: 設(shè)置 Cookies。響應(yīng)頭中的 Set-Cookie 告訴瀏覽器需要將此內(nèi)容放在 Cookies中，下次請(qǐng)求攜帶 Cookies請(qǐng)求。

Expires: 指定響應(yīng)的過(guò)期時(shí)間，可以使代理服務(wù)器或?yàn)g覽器將加載的內(nèi)容更新到緩存。如果再次訪問(wèn)時(shí)，就可以直接從緩存中加載，降低服務(wù)器負(fù)載，縮短加載時(shí)間。

1.urllib.request模塊

request: 最基本的HTTP請(qǐng)求模塊，可以用來(lái)模擬發(fā)送請(qǐng)求。就像在瀏覽器里輸入網(wǎng)址然后回車一樣，只需要給庫(kù)方法傳入 URL 以及額外的參數(shù)，就可以模擬實(shí)現(xiàn)這個(gè)過(guò)程了 ,同時(shí)它還帶有處理授權(quán)驗(yàn)證( authenticaton )、重定向( redirection)、瀏覽器 Cookies 以及其他內(nèi)容。

error: 異常處理模塊，如果出現(xiàn)請(qǐng)求錯(cuò)誤，我們可以捕獲這些異常，然后進(jìn)行重試或其他操作以保證程序不會(huì)意外終止。

parse: 一個(gè)工具模塊，提供了許多 URL處理方法，比如拆分，解析，合并等。

robotparser:主要是用來(lái)識(shí)別網(wǎng)站的 robots.txt文件，然后判斷哪些網(wǎng)站可以爬，哪些網(wǎng)站不可以爬，它其實(shí)用得比較少。

urllib.request.urlopen() 為最基本HTTP請(qǐng)求的方法

import urllib.request
response= urllib.request.urlopen("https://www.python.org") 
print(response.read().decode ("utf-8"))  //打印出網(wǎng)頁(yè)的源代碼
print(type(response))    //說(shuō)明該對(duì)象類型為HTTPResponse類型。
print(response.status)    //200

print(response.getheaders()) //   
[("Server", "nginx"), ("Content-Type", "text/html; charset=utf-8"), ("X-Frame-Options", "DENY"), 
("Via", "1.1 vegur"), ("Via", "1.1 varnish"), ("Content-Length", "48995"), ("Accept-Ranges", "bytes"), 
("Date", "Mon, 13 May 2019 09:23:37 GMT"), ("Via", "1.1 varnish"), ("Age", "3595"), ("Connection", "close"), 
("X-Served-By", "cache-iad2139-IAD, cache-tyo19927-TYO"), ("X-Cache", "HIT, HIT"), 
("X-Cache-Hits", "1, 6071"), ("X-Timer", "S1557739417.434556,VS0,VE0"), ("Vary", "Cookie"), 
("Strict-Transport-Security", "max-age=63072000; includeSubDomains")]

print(response.getheader("Server"))    //nginx

HTTPResposne類型的對(duì)象，主要包含

read()、 readinto()、 getheader(name)、getheaders()、 fileno()等方法，以及 msg、 version、status、reason、debuglevel、closed等屬性。

如果想給鏈接傳遞一些參數(shù)，該怎么實(shí)現(xiàn)呢?首先看一下urlopen()函數(shù)的 API:

urllib.request.urlopen(url, data=None, timeout=

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)學(xué)習(xí)（二）基礎(chǔ)階段

相關(guān)文章

**Python爬蟲(chóng)學(xué)習(xí)路線**

史上最詳細(xì)Python學(xué)習(xí)路線-從入門(mén)到精通，只需90天

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

**我是如何零基礎(chǔ)自學(xué)轉(zhuǎn)行人工智能的（附十問(wèn)十答）**

發(fā)表評(píng)論

0條評(píng)論

xiaoqibTn

男|高級(jí)講師

TA的文章

tensorflow的版本

vue 中echart折線自適應(yīng)

簡(jiǎn)單的選項(xiàng)卡切換效果

body標(biāo)簽子級(jí)被默認(rèn)client width截?cái)嗟慕鉀Q方法

CSS Grid布局：什么是網(wǎng)格布局

太原面經(jīng)分享：如何在vue面試環(huán)節(jié)，展示你晉級(jí)阿里P6+的技術(shù)功底？

2017年 JavaScript 框架回顧 -- 后端框架

【譯】教你如何避開(kāi)「Cannot read property of undefined」

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

爬蟲(chóng)學(xué)習(xí)（二）基礎(chǔ)階段

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！