Python入門網(wǎng)絡(luò)爬蟲之精華版

Bmob 發(fā)布于2019-07-25 11:34 / 1735人閱讀

摘要：學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分個(gè)大的版塊抓取，分析，存儲(chǔ)另外，比較常用的爬蟲框架，這里最后也詳細(xì)介紹一下。網(wǎng)絡(luò)爬蟲要做的，簡(jiǎn)單來(lái)說(shuō)，就是實(shí)現(xiàn)瀏覽器的功能。

Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個(gè)大的版塊：抓取，分析，存儲(chǔ)
另外，比較常用的爬蟲框架Scrapy，這里最后也詳細(xì)介紹一下。
首先列舉一下本人總結(jié)的相關(guān)文章，這些覆蓋了入門網(wǎng)絡(luò)爬蟲需要的基本概念和技巧：寧哥的小站-網(wǎng)絡(luò)爬蟲,當(dāng)我們?cè)跒g覽器中輸入一個(gè)url后回車，后臺(tái)會(huì)發(fā)生什么？比如說(shuō)你輸入http://www.lining0806.com/，你就會(huì)看到寧哥的小站首頁(yè)。

簡(jiǎn)單來(lái)說(shuō)這段過(guò)程發(fā)生了以下四個(gè)步驟：
查找域名對(duì)應(yīng)的IP地址。
向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。
服務(wù)器響應(yīng)請(qǐng)求，發(fā)回網(wǎng)頁(yè)內(nèi)容。
瀏覽器解析網(wǎng)頁(yè)內(nèi)容。
網(wǎng)絡(luò)爬蟲要做的，簡(jiǎn)單來(lái)說(shuō)，就是實(shí)現(xiàn)瀏覽器的功能。通過(guò)指定url，直接返回給用戶所需要的數(shù)據(jù)，而不需要一步步人工去操縱瀏覽器獲取。

**抓取**
這一步，你要明確要得到的內(nèi)容是什么？是HTML源碼，還是Json格式的字符串等。

1. 最基本的抓取
抓取大多數(shù)情況屬于get請(qǐng)求，即直接從對(duì)方服務(wù)器上獲取數(shù)據(jù)。
首先，Python中自帶urllib及urllib2這兩個(gè)模塊，基本上能滿足一般的頁(yè)面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

Requests：
import requests
response = requests.get(url)
content = requests.get(url).content
print "response headers:", response.headers
print "content:", content
Urllib2：
import urllib2
response = urllib2.urlopen(url)
content = urllib2.urlopen(url).read()
print "response headers:", response.headers
print "content:", content
Httplib2：
import httplib2
http = httplib2.Http()
response_headers, content = http.request(url, "GET")
print "response headers:", response_headers
print "content:", content

此外，對(duì)于帶有查詢字段的url，get請(qǐng)求一般會(huì)將來(lái)請(qǐng)求的數(shù)據(jù)附在url之后，以?分割url和傳輸數(shù)據(jù)，多個(gè)參數(shù)用&連接。

data = {"data1":"XXXXX", "data2":"XXXXX"}
Requests：data為dict，json
import requests
response = requests.get(url=url, params=data)
Urllib2：data為string
import urllib, urllib2    
data = urllib.urlencode(data)
full_url = url+"?"+data
response = urllib2.urlopen(full_url)

相關(guān)參考：網(wǎng)易新聞排行榜抓取回顧
參考項(xiàng)目：網(wǎng)絡(luò)爬蟲之最基本的爬蟲：爬取網(wǎng)易新聞排行榜

2. 對(duì)于登陸情況的處理

2.1 使用表單登陸
這種情況屬于post請(qǐng)求，即先向服務(wù)器發(fā)送表單數(shù)據(jù)，服務(wù)器再將返回的cookie存入本地。
data = {"data1":"XXXXX", "data2":"XXXXX"}
Requests：data為dict，json
import requests
response = requests.post(url=url, data=data)
Urllib2：data為string
import urllib, urllib2    
data = urllib.urlencode(data)
req = urllib2.Request(url=url, data=data)
response = urllib2.urlopen(req)

2.2 使用cookie登陸
使用cookie登陸，服務(wù)器會(huì)認(rèn)為你是一個(gè)已登陸的用戶，所以就會(huì)返回給你一個(gè)已登陸的內(nèi)容。因此，需要驗(yàn)證碼的情況可以使用帶驗(yàn)證碼登陸的cookie解決。

import requests            
requests_session = requests.session() 
response = requests_session.post(url=url_login, data=data)

若存在驗(yàn)證碼，此時(shí)采用

response = requests_session.post(url=url_login, data=data)是不行的，做法應(yīng)該如下：
response_captcha = requests_session.get(url=url_login,cookies=cookies)
response1 = requests.get(url_login) # 未登陸
response2 = requests_session.get(url_login) # 已登陸，因?yàn)橹澳玫搅薘esponse Cookie！
response3 = requests_session.get(url_results) # 已登陸，因?yàn)橹澳玫搅薘esponse Cookie！

相關(guān)參考：網(wǎng)絡(luò)爬蟲-驗(yàn)證碼登陸
參考項(xiàng)目：網(wǎng)絡(luò)爬蟲之用戶名密碼及驗(yàn)證碼登陸：爬取知乎網(wǎng)站

3. 對(duì)于反爬蟲機(jī)制的處理

3.1 使用代理
適用情況：限制IP地址情況，也可解決由于“頻繁點(diǎn)擊”而需要輸入驗(yàn)證碼登陸的情況。
這種情況最好的辦法就是維護(hù)一個(gè)代理IP池，網(wǎng)上有很多免費(fèi)的代理IP，良莠不齊，可以通過(guò)篩選找到能用的。對(duì)于“頻繁點(diǎn)擊”的情況，我們還可以通過(guò)限制爬蟲訪問(wèn)網(wǎng)站的頻率來(lái)避免被網(wǎng)站禁掉。

proxies = {"http":"http://XX.XX.XX.XX:XXXX"}
Requests：
import requests
response = requests.get(url=url, proxies=proxies)
Urllib2：
import urllib2
proxy_support = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler)
urllib2.install_opener(opener) # 安裝opener，此后調(diào)用urlopen()時(shí)都會(huì)使用安裝過(guò)的opener對(duì)象
response = urllib2.urlopen(url)

3.2 時(shí)間設(shè)置
適用情況：限制頻率情況。
Requests，Urllib2都可以使用time庫(kù)的sleep()函數(shù)：
import time
time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”
有些網(wǎng)站會(huì)檢查你是不是真的瀏覽器訪問(wèn)，還是機(jī)器自動(dòng)訪問(wèn)的。這種情況，加上User-Agent，表明你是瀏覽器訪問(wèn)即可。有時(shí)還會(huì)檢查是否帶Referer信息還會(huì)檢查你的Referer是否合法，一般再加上Referer。

headers = {"User-Agent":"XXXXX"} # 偽裝成瀏覽器訪問(wèn)，適用于拒絕爬蟲的網(wǎng)站
headers = {"Referer":"XXXXX"}
headers = {"User-Agent":"XXXXX", "Referer":"XXXXX"}
Requests：
response = requests.get(url=url, headers=headers)
Urllib2：
import urllib, urllib2   
req = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(req)

4. 對(duì)于斷線重連不多說(shuō)。
def multi_session(session, *arg):
retryTimes = 20
while retryTimes>0:
try:
return session.post(*arg)
except:
print ".",
retryTimes -= 1

或者

def multi_open(opener, *arg):
retryTimes = 20
while retryTimes>0:
try:
return opener.open(*arg)
except:
print ".",
retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對(duì)爬蟲抓取的session或opener進(jìn)行保持。

5. 多進(jìn)程抓取
這里針對(duì)華爾街見聞進(jìn)行并行抓取的實(shí)驗(yàn)對(duì)比：Python多進(jìn)程抓取 與 Java單線程和多線程抓取
相關(guān)參考：關(guān)于Python和Java的多進(jìn)程多線程計(jì)算方法對(duì)比

6. 對(duì)于Ajax請(qǐng)求的處理
對(duì)于“加載更多”情況，使用Ajax來(lái)傳輸很多數(shù)據(jù)。
它的工作原理是：從網(wǎng)頁(yè)的url加載網(wǎng)頁(yè)的源代碼之后，會(huì)在瀏覽器里執(zhí)行JavaScript程序。這些程序會(huì)加載更多的內(nèi)容，“填充”到網(wǎng)頁(yè)里。這就是為什么如果你直接去爬網(wǎng)頁(yè)本身的url，你會(huì)找不到頁(yè)面的實(shí)際內(nèi)容。
這里，若使用Google Chrome分析”請(qǐng)求“對(duì)應(yīng)的鏈接(方法：右鍵→審查元素→Network→清空，點(diǎn)擊”加載更多“，出現(xiàn)對(duì)應(yīng)的GET鏈接尋找Type為text/html的，點(diǎn)擊，查看get參數(shù)或者復(fù)制Request URL)，循環(huán)過(guò)程。
如果“請(qǐng)求”之前有頁(yè)面，依據(jù)上一步的網(wǎng)址進(jìn)行分析推導(dǎo)第1頁(yè)。以此類推，抓取抓Ajax地址的數(shù)據(jù)。
對(duì)返回的json格式數(shù)據(jù)(str)進(jìn)行正則匹配。json格式數(shù)據(jù)中，需從’uxxxx’形式的unicode_escape編碼轉(zhuǎn)換成u’uxxxx’的unicode編碼。

7. 自動(dòng)化測(cè)試工具Selenium
Selenium是一款自動(dòng)化測(cè)試工具。它能實(shí)現(xiàn)操縱瀏覽器，包括字符填充、鼠標(biāo)點(diǎn)擊、獲取元素、頁(yè)面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。這里列出在給定城市列表后，使用selenium來(lái)動(dòng)態(tài)抓取去哪兒網(wǎng)的票價(jià)信息的代碼。
參考項(xiàng)目：網(wǎng)絡(luò)爬蟲之Selenium使用代理登陸：爬取去哪兒網(wǎng)站

8. 驗(yàn)證碼識(shí)別
對(duì)于網(wǎng)站有驗(yàn)證碼的情況，我們有三種辦法：
使用代理，更新IP。
使用cookie登陸。
驗(yàn)證碼識(shí)別。
使用代理和使用cookie登陸之前已經(jīng)講過(guò)，下面講一下驗(yàn)證碼識(shí)別。
可以利用開源的Tesseract-OCR系統(tǒng)進(jìn)行驗(yàn)證碼圖片的下載及識(shí)別，將識(shí)別的字符傳到爬蟲系統(tǒng)進(jìn)行模擬登陸。當(dāng)然也可以將驗(yàn)證碼圖片上傳到打碼平臺(tái)上進(jìn)行識(shí)別。如果不成功，可以再次更新驗(yàn)證碼識(shí)別，直到成功為止。
參考項(xiàng)目：驗(yàn)證碼識(shí)別項(xiàng)目第一版：Captcha1
爬取有兩個(gè)需要注意的問(wèn)題：
如何監(jiān)控一系列網(wǎng)站的更新情況，也就是說(shuō)，如何進(jìn)行增量式爬取？
對(duì)于海量數(shù)據(jù)，如何實(shí)現(xiàn)分布式爬取？

**分析**
抓取之后就是對(duì)抓取的內(nèi)容進(jìn)行分析，你需要什么內(nèi)容，就從中提煉出相關(guān)的內(nèi)容來(lái)。
常見的分析工具有正則表達(dá)式，BeautifulSoup，lxml等等。

**存儲(chǔ)**
分析出我們需要的內(nèi)容之后，接下來(lái)就是存儲(chǔ)了。
我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數(shù)據(jù)庫(kù)等。
存儲(chǔ)有兩個(gè)需要注意的問(wèn)題：
如何進(jìn)行網(wǎng)頁(yè)去重？
內(nèi)容以什么形式存儲(chǔ)？

**Scrapy**
Scrapy是一個(gè)基于Twisted的開源的Python爬蟲框架，在工業(yè)中應(yīng)用非常廣泛。
相關(guān)內(nèi)容可以參考基于Scrapy網(wǎng)絡(luò)爬蟲的搭建，同時(shí)給出這篇文章介紹的微信搜索爬取的項(xiàng)目代碼，給大家作為學(xué)習(xí)參考。
參考項(xiàng)目：使用Scrapy或Requests遞歸抓取微信搜索結(jié)果

[楚江數(shù)據(jù)][1]是一家專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù)商，為客戶提供網(wǎng)站APP數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù)，服務(wù)范圍涵蓋社交網(wǎng)絡(luò)、電子商務(wù)、分類信息、學(xué)術(shù)研究等。
官方網(wǎng)站 http://www.chujiangdata.com

轉(zhuǎn)載請(qǐng)注明：寧哥的小站 ? Python入門網(wǎng)絡(luò)爬蟲之精華版