【Python爬蟲】手把手帶你爬下肯德基官網(wǎng)（ajax的post請求）

WelliJhon 發(fā)布于2021-10-13 09:40 / 1815人閱讀

摘要：準(zhǔn)備工作查看肯德基官網(wǎng)的請求方法請求。判斷得肯德基官網(wǎng)是請求通過這兩個準(zhǔn)備步驟，明確本次爬蟲目標(biāo)的請求肯德基官網(wǎng)獲取上海肯德基地點前頁。構(gòu)造不難發(fā)現(xiàn)，肯德基官網(wǎng)的的一個共同點，我們把它保存為。

準(zhǔn)備工作

查看肯德基官網(wǎng)的請求方法：post請求。
X-Requested-With: XMLHttpRequest 判斷得肯德基官網(wǎng)是ajax請求

通過這兩個準(zhǔn)備步驟，明確本次爬蟲目標(biāo)：
ajax的post請求肯德基官網(wǎng) 獲取上海肯德基地點前10頁。

分析

獲取上海肯德基地點前10頁，那就需要先對每頁的url進(jìn)行分析。

第一頁

# page1# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname# POST# cname: 上海# pid:# pageIndex: 1# pageSize: 10

第二頁

# page2# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname# POST# cname: 上海# pid:# pageIndex: 2# pageSize: 10

第三頁依次類推。

程序入口

首先回顧urllib爬取的基本操作：

# 使用urllib獲取百度首頁的源碼import urllib.request# 1.定義一個url，就是你要訪問的地址url = "http://www.baidu.com"# 2.模擬瀏覽器向服務(wù)器發(fā)送請求 response響應(yīng)response = urllib.request.urlopen(url)# 3.獲取響應(yīng)中的頁面的源碼 content內(nèi)容# read方法 返回的是字節(jié)形式的二進(jìn)制數(shù)據(jù)# 將二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為字符串# 二進(jìn)制-->字符串  解碼 decode方法content = response.read().decode("utf-8")# 4.打印數(shù)據(jù)print(content)

定義一個url，就是你要訪問的地址
模擬瀏覽器向服務(wù)器發(fā)送請求 response響應(yīng)
獲取響應(yīng)中的頁面的源碼 content內(nèi)容

if __name__ == "__main__":    start_page = int(input("請輸入起始頁碼: "))    end_page = int(input("請輸入結(jié)束頁碼: "))    for page in range(start_page, end_page+1):        # 請求對象的定制        request = create_request(page)        # 獲取網(wǎng)頁源碼        content = get_content(request)        # 下載數(shù)據(jù)        down_load(page, content)

對應(yīng)的，我們在主函數(shù)中也類似聲明方法。

url組成數(shù)據(jù)定位

爬蟲的關(guān)鍵在于找接口。對于這個案例，在預(yù)覽頁可以找到頁面對應(yīng)的json數(shù)據(jù)，說明這是我們要的數(shù)據(jù)。

構(gòu)造url

不難發(fā)現(xiàn)，肯德基官網(wǎng)的url的一個共同點，我們把它保存為base_url。

base_url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname"

參數(shù)

老樣子，找規(guī)律，只有’pageIndex’和頁碼有關(guān)。

    data = {        "cname": "上海",        "pid": "",        "pageIndex": page,        "pageSize": "10"    }

post請求

post請求的參數(shù) 必須要進(jìn)行編碼

data = urllib.parse.urlencode(data).encode("utf-8")

編碼之后必須調(diào)用encode方法
參數(shù)放在請求對象定制的方法中：post的請求的參數(shù)，是不會拼接在url后面的，而是放在請求對象定制的參數(shù)中

所以將data進(jìn)行編碼

data = urllib.parse.urlencode(data).encode("utf-8")

標(biāo)頭獲取（防止反爬的一種手段）

即響應(yīng)頭中UA部分。

User Agent，用戶代理，特殊字符串頭，使得服務(wù)器能夠識別客戶使用的操作系統(tǒng)及版本，CPU類型，瀏覽器及版本，瀏覽器內(nèi)核，瀏覽器渲染引擎，瀏覽器語言，瀏覽器插件等。

 headers = {        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38"    }

請求對象定制

參數(shù)，base_url，請求頭都準(zhǔn)備得當(dāng)后，就可以進(jìn)行請求對象定制了。

 request = urllib.request.Request(base_url,  headers=headers, data=data)

獲取網(wǎng)頁源碼

把request請求作為參數(shù)，模擬瀏覽器向服務(wù)器發(fā)送請求獲得response響應(yīng)。

 response = urllib.request.urlopen(request)    content = response.read().decode("utf-8")

獲取響應(yīng)中的頁面的源碼，下載數(shù)據(jù)

使用 read()方法，得到字節(jié)形式的二進(jìn)制數(shù)據(jù)，需要使用 decode進(jìn)行解碼，轉(zhuǎn)換為字符串。

content = response.read().decode("utf-8")

然后我們將下載得到的數(shù)據(jù)寫進(jìn)文件，使用 with open() as fp 的語法，系統(tǒng)自動關(guān)閉文件。

def down_load(page, content):    with open("kfc_" + str(page) + ".json", "w", encoding="utf-8") as fp:        fp.write(content)

全部代碼

# ajax的post請求肯德基官網(wǎng) 獲取上海肯德基地點前10頁# page1# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname# POST# cname: 上海# pid:# pageIndex: 1# pageSize: 10# page2# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname# POST# cname: 上海# pid:# pageIndex: 2# pageSize: 10import urllib.request, urllib.parsedef create_request(page):    base_url = "http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname"    data = {        "cname": "上海",        "pid": "",        "pageIndex": page,        "pageSize": "10"    }    data = urllib.parse.urlencode(data).encode("utf-8")    headers = {        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38"    }    request = urllib.request.Request(base_url, headers=headers, data=data)    return requestdef get_content(request):    response = urllib.request.urlopen(request)    content = response.read().decode("utf-8")    return contentdef down_load(page, content):    with open("kfc_" + str(page) + ".json", "w", encoding="utf-8") as fp:        fp.write(content)if __name__ == "__main__":    start_page = int(input("請輸入起始頁碼: "))    end_page = int(input("請輸入結(jié)束頁碼: "))    for page in range(start_page, end_page+1):        # 請求對象的定制        request = create_request(page)        # 獲取網(wǎng)頁源碼        content = get_content(request)        # 下載數(shù)據(jù)        down_load(page, content)

爬取后結(jié)果

鞠躬！！！其實還爬過Lisa的照片，想看爬蟲代碼的歡迎留言！！！

云服務(wù)器 GPU云服務(wù)器 ajax的post請求 ajax發(fā)送post請求這篇文章手把手帶你閱讀Netty源碼【附 python_ajax爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/122441.html

發(fā)表評論

登陸后可評論

0條評論

WelliJhon

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow算法

閱讀 1243·2023-04-25 18:57
tensor.unsqueeze

閱讀 2127·2023-04-25 16:28
ffmpeg獲取視頻截圖

閱讀 3925·2021-11-24 09:39
如何識別圖片文字，PaddleOCR機(jī)器學(xué)習(xí)開源項目使用 | 機(jī)器學(xué)習(xí)

閱讀 3630·2021-11-16 11:45
【Python爬蟲】手把手帶你爬下肯德基官網(wǎng)（ajax的post請求）

閱讀 1816·2021-10-13 09:40
組件設(shè)計漫談

閱讀 1260·2019-08-30 15:52
彈性盒模型

閱讀 1714·2019-08-30 10:57
Canvas + WebSocket + Redis 實現(xiàn)一個視頻彈幕

閱讀 657·2019-08-29 16:55

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

【Python爬蟲】手把手帶你爬下肯德基官網(wǎng)（ajax的post請求）

準(zhǔn)備工作

分析

程序入口

url組成數(shù)據(jù)定位

構(gòu)造url

參數(shù)

post請求

標(biāo)頭獲取（防止反爬的一種手段）

請求對象定制

獲取網(wǎng)頁源碼

獲取響應(yīng)中的頁面的源碼，下載數(shù)據(jù)

全部代碼

爬取后結(jié)果

相關(guān)文章

python爬蟲之ajax請求

**【蟲術(shù)】資深爬蟲師帶你爬取代理IP**

**【蟲術(shù)】資深爬蟲師帶你爬取代理IP**

手把手教你寫帶登錄的NodeJS爬蟲+數(shù)據(jù)展示

發(fā)表評論

0條評論

WelliJhon

男|高級講師

TA的文章

tensorflow算法

tensor.unsqueeze

ffmpeg獲取視頻截圖

如何識別圖片文字，PaddleOCR機(jī)器學(xué)習(xí)開源項目使用 | 機(jī)器學(xué)習(xí)

【Python爬蟲】手把手帶你爬下肯德基官網(wǎng)（ajax的post請求）

組件設(shè)計漫談

彈性盒模型

Canvas + WebSocket + Redis 實現(xiàn)一個視頻彈幕

最新活動