【爬蟲系列之二】python基礎(chǔ)知識的了解

SHERlocked93 發(fā)布于2019-07-30 16:50 / 3193人閱讀

摘要：數(shù)據(jù)傳送上面介紹了參數(shù)，這里就是將需要的參數(shù)通過方式傳入上述代碼引入了庫，現(xiàn)在我們模擬登陸京東商場，但是應(yīng)該是無法登陸的，一般都是需要設(shè)置一些頭部的工作，或者其它的參數(shù)，這里使用了庫對參數(shù)，進(jìn)行一下。

了解了前面的環(huán)境搭建，以及python的基礎(chǔ)知識的學(xué)習(xí)，咱們接下來學(xué)習(xí)一下，如何將網(wǎng)頁扒下來

一、案例介紹

當(dāng)我們打開瀏覽器，打開頁面，看到的是好看的頁面，但是其實是由瀏覽器解釋才呈現(xiàn)的，實際上這好看的頁面，是通過html，css，js組合形成的。

接下來，我們就寫個小例子來扒下來網(wǎng)頁（本篇文章，以python2.7為例子）

# coding:utf-8

import urllib2
response = urllib2.urlopen("http://music.163.com/")
print response.read()

二、分析案例的方法

然后讓我們來分析一下上述例子的代碼是干啥的

第一行：import urllib2

該行代碼是通過import將python的urllib2庫引入

第二行：response = urllib2.urlopen("http://music.163.com/")

這行代碼是調(diào)用urllib2庫中的urlopen方法,然后傳入了一個網(wǎng)易云音樂的url地址,urlopen方法為
`urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,

        cafile=None, capath=None, cadefault=False, context=None)`

其中第一個參數(shù)就是url，然后其它幾個參數(shù)都是可以不傳送的，其中第二個參數(shù)表示的訪問該網(wǎng)址需要的傳送的數(shù)據(jù)，第三個參數(shù)timeout表示的是過期時間，默認(rèn)值是socket._GLOBAL_DEFAULT_TIMEOUT

第三行：print response.read()
其中response對象有一個read方法，可以返回獲取到的頁面內(nèi)容，千萬記得添加上read方法，不然會出現(xiàn)打印出來是對象。

三、Request的構(gòu)造

將上述例子修改下，如下，其中urlopen是可以傳入一個request請求，它是一個Request類的實例,構(gòu)造的時候可以傳入url，data,header等參數(shù),它可以讓我們構(gòu)造一個request對象，在request請求中添加相關(guān)的header頭文件。

# coding:utf-8

import urllib2

request = urllib2.Request("http://music.163.com/")
response = urllib2.urlopen(request)

print response.read()

四、POST和GET數(shù)據(jù)傳送 GET 數(shù)據(jù)傳送

GET方式我們可以直接把參數(shù)寫到網(wǎng)址上面，直接構(gòu)建一個帶參數(shù)的URL出來即可。

import urllib
import urllib2

values = {}
values["wd"] = "zs"
data = urllib.urlencode(values)
url = "http://www.baidu.com/s" + "?" + data
request = urllib2.Request(url)
response = urllib2.urlopen(request)

print response.read()

POST 數(shù)據(jù)傳送

上面介紹了data參數(shù) ，這里就是將需要的參數(shù) 通過data方式傳入

import urllib
import urllib2
 
values = {}
values["username"] = "1016903103@qq.com"
values["password"] = "XXXX"
data = urllib.urlencode(values) 
url = "https://passport.jd.com/new/login.aspx?ReturnUrl=https%3A%2F%2Fwww.jd.com%2F"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

上述代碼引入了urllib庫，現(xiàn)在我們模擬登陸京東商場，但是應(yīng)該是無法登陸的，一般都是需要設(shè)置一些頭部header的工作，或者其它的參數(shù)，這里使用了urllib庫對參數(shù)，進(jìn)行urlencode一下。

五、設(shè)置headers

上面描述了一下，一般請求都需要帶上各種header屬性。
看下圖，是京東的登陸頁面，然后可以打開谷歌瀏覽器F12，然后可以看到請求，上面headers設(shè)置了挺多的參數(shù)，其中agent是請求的身份，還有refer，都是用來反盜鏈。看下面例子

import urllib  
import urllib2  
 
url = "https://passport.jd.com/new/login.aspx?ReturnUrl=https%3A%2F%2Fwww.jd.com%2F"
user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
refer ="https://www.jd.com/"
values = {"username" : "cqc",  "password" : "XXXX" }  
headers = { "User-Agent" : user_agent,"Refer":refer }  
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(request)  
page = response.read()

一般進(jìn)行爬蟲的時候，可以考慮檢查瀏覽器的headers的內(nèi)容

六、Proxy（代理）的設(shè)置

urllib2 默認(rèn)會使用 http_proxy 來設(shè)置 HTTP Proxy。假如一個網(wǎng)站它會某一段時間某個IP 的訪問次數(shù)，如果訪問次數(shù)過多，它會禁止你的訪問。所以你可以設(shè)置一些來幫助你做工作，每隔一段時間換一個代理，網(wǎng)站君都不知道是誰在搗鬼了，這酸爽！
下面一段代碼說明設(shè)置方法

import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : "http://some-proxy.com:8080"})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
    opener = urllib2.build_opener(proxy_handler)
else:
    opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

七、使用 HTTP 的 PUT 和 DELETE 方法

下面的案例是用來多帶帶設(shè)置http的put和delete，請求

import urllib2
request = urllib2.Request(uri, data=data)
request.get_method = lambda: "PUT" # or "DELETE"
response = urllib2.urlopen(request)

推薦閱讀：

【爬蟲系列之一】爬蟲開發(fā)環(huán)境的搭建

更多精彩內(nèi)容，歡迎大家關(guān)注我的微信公眾號：喝醉的清茶

云服務(wù)器 GPU云服務(wù)器系列之二 python爬蟲基礎(chǔ)知識 python爬蟲基礎(chǔ)入門零基礎(chǔ)學(xué)python爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/41855.html

發(fā)表評論

登陸后可評論

0條評論

SHERlocked93

男|高級講師

我要關(guān)注我要私信

TA的文章

angularjs特效之分散的字符串--解析compile link $compile $inter

閱讀 3540·2019-08-30 12:58
overflow:hidden失效問題

閱讀 923·2019-08-29 16:37
如何對GitHubPages上的靜態(tài)資源進(jìn)行CDN加速

閱讀 2796·2019-08-29 16:29
React生命周期

閱讀 3105·2019-08-26 12:18
一個前端菜鳥的成長歷程

閱讀 2365·2019-08-26 11:59
Smartour——讓網(wǎng)頁導(dǎo)覽變得更簡單

閱讀 3405·2019-08-23 18:27
apply與call方法

閱讀 2770·2019-08-23 16:43
NEO DAPP全球區(qū)塊鏈應(yīng)用開發(fā)挑戰(zhàn)賽

閱讀 3301·2019-08-23 15:23

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

【爬蟲系列之二】python基礎(chǔ)知識的了解

相關(guān)文章

【爬蟲系列之三】URLError異常處理以及Cookie的使用

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python爬蟲入門教程 7-100 蜂鳥網(wǎng)圖片爬取之二

Python爬蟲入門教程 7-100 蜂鳥網(wǎng)圖片爬取之二

Python爬蟲入門教程 7-100 蜂鳥網(wǎng)圖片爬取之二

發(fā)表評論

0條評論

SHERlocked93

男|高級講師

TA的文章

angularjs特效之分散的字符串--解析compile link $compile $inter

overflow:hidden失效問題

如何對GitHubPages上的靜態(tài)資源進(jìn)行CDN加速

React生命周期

一個前端菜鳥的成長歷程

Smartour——讓網(wǎng)頁導(dǎo)覽變得更簡單

apply與call方法

NEO DAPP全球區(qū)塊鏈應(yīng)用開發(fā)挑戰(zhàn)賽

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

【爬蟲系列之二】python基礎(chǔ)知識的了解

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！