Python爬蟲學(xué)習(xí)（一）

netScorpion 發(fā)布于2019-08-02 16:14 / 2054人閱讀

摘要：獲得網(wǎng)頁內(nèi)容庫自動(dòng)爬取頁面，自動(dòng)提交相關(guān)請(qǐng)求要學(xué)會(huì)看官方文檔這里通過方法構(gòu)造了一個(gè)向服務(wù)器請(qǐng)求資源的對(duì)象返回的是對(duì)象對(duì)頁面進(jìn)行解析網(wǎng)絡(luò)爬蟲，盜亦有道協(xié)議中對(duì)于網(wǎng)絡(luò)爬蟲的相關(guān)標(biāo)準(zhǔn)規(guī)定一個(gè)通用的爬蟲代碼框架網(wǎng)絡(luò)連接并不一定是成立的，對(duì)于異常情況

獲得網(wǎng)頁內(nèi)容

The website is the API

Reqests庫
自動(dòng)爬取html頁面，自動(dòng)提交相關(guān)請(qǐng)求

Requests: HTTP for Humans? — Requests 2.21.0 documentation
要學(xué)會(huì)看官方文檔

r = requests.get(url)
#這里通過get方法構(gòu)造了一個(gè)向服務(wù)器請(qǐng)求資源的Request對(duì)象
#返回的是response對(duì)象

Beautful soup
對(duì)web頁面進(jìn)行解析

網(wǎng)絡(luò)爬蟲，盜亦有道
 robots協(xié)議中對(duì)于網(wǎng)絡(luò)爬蟲的相關(guān)標(biāo)準(zhǔn)規(guī)定

一個(gè)通用的爬蟲代碼框架

網(wǎng)絡(luò)連接并不一定是成立的，對(duì)于異常情況的處理非常重要

#如果狀態(tài)碼不是200，則產(chǎn)生異常
r.raise_for_status()
................................
#通用爬蟲框架
import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()    #異常處理
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "Error"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

HTTP協(xié)議

注意get與post的區(qū)別

python數(shù)據(jù)類型，字典dict
使用{} ：的一系列鍵值對(duì)

robots協(xié)議
網(wǎng)站告知爬蟲那些頁面可以抓取，那些不能
網(wǎng)站根目錄下的robot.txt文件

爬蟲的header修改

url = "https://www.amazon.cn/dp/B078FFX8B6"
kv = {"User-agent" : "Mozilla/5.0"}
r = requests.get(url, headers = kv)

網(wǎng)絡(luò)圖片的爬取和存儲(chǔ)

import requests
path = "/Users/apple/Pictures/a.jpg"
url = "http://img0.dili360.com/ga/M01/48/E0/wKgBzFmyTcaACuVKACZ-qAthuNY888.tub.jpg@!rw9"
r = requests.get(url)

with open(path, "wb") as f:
    f.write(r.content)

f.close()