我用Python爬取了五千張美女圖壁紙，每天一張忘記初戀！

huaixiaoz 發(fā)布于2021-09-26 09:55 / 1015人閱讀

摘要：愛美之心人皆有之，正所謂窈窕淑女君子好逑，美好敲代碼的一天從好看的桌面壁紙開始，好看的桌面壁紙從美女壁紙開始。

大家好，我是辣條，這是我爬蟲系列的第26篇。

愛美之心人皆有之，正所謂窈窕淑女君子好逑，美好敲代碼的一天從好看的桌面壁紙開始，好看的桌面壁紙從美女壁紙開始。今天給大家?guī)砀＠玻廊∶琅畧D片作為桌面壁紙！【防止有人捶我打擦邊球，都是正經(jīng)的圖片，自己想歪了是你的事，僅供學習交流】

采集目標

網(wǎng)址：36壁紙

展示效果

工具使用

開發(fā)工具：pycharm 開發(fā)環(huán)境：python3.7， Windows10 使用工具包：requests， lxml

項目思路解析

獲取網(wǎng)頁數(shù)據(jù)首先需要分辨數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動態(tài)數(shù)據(jù)檢驗方法在網(wǎng)頁源代碼搜索你需要數(shù)據(jù)的關(guān)鍵字，要是有的話就是靜態(tài)數(shù)據(jù)，沒有的話就是動態(tài)數(shù)據(jù)，當前網(wǎng)頁數(shù)據(jù)加載方式是通過url換頁，通過循環(huán)的方式加載頁面數(shù)據(jù)，使用requests發(fā)送網(wǎng)絡(luò)請求獲取當前網(wǎng)頁數(shù)據(jù)，通過xpath語法定位到網(wǎng)頁鏈接請求

記住在這里提取的數(shù)據(jù)是html鏈接我們要的一大批數(shù)據(jù)在詳情頁面

提取出當前網(wǎng)頁所以的詳情頁面鏈接，xpath提取的數(shù)據(jù)為列表，循環(huán)取出每個數(shù)據(jù)依次發(fā)送請求

我們要獲取的圖片都在這里按照通樣的方法使用xpath方式進行定位獲取到所以詳細圖片的位置

獲取到全部圖片地址，這個圖片需要注意的是是縮略圖我們需要找出縮略圖和大圖url的區(qū)別

https://pic.3gbizhi.com/2021/0922/20210922094032743.jpghttps://pic.3gbizhi.com/2021/0922/thumb_200_0_20210922094032743.jpg

縮略圖比大圖多了thumb_200_0_ 進行分割在進行拼接，對圖片的發(fā)送網(wǎng)絡(luò)請求獲取到詳細的圖片數(shù)據(jù)，在進行保存

簡易源碼分享

import requestsfrom lxml import etree?headers = {? ? ?"Cookie": "Hm_lvt_c8263f264e5db13b29b03baeb1840f60=1632291839,1632373348; Hm_lpvt_c8263f264e5db13b29b03baeb1840f60=1632373697", ? ?"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"}?for i in range(2, 3): ? ?url = f"https://www.3gbizhi.com/meinv/xgmn_{i}.html" ? ?response = requests.get(url, headers=headers) ? ?html = etree.HTML(response.text) ? ?href_list = html.xpath("http://div[@class="contlistw mtw"]//ul[@class="cl"]/li/a/@href") ? ?title_list = html.xpath("http://div[@class="contlistw mtw"]//ul[@class="cl"]/li/a/@title") ? ?for href, title in zip(href_list, title_list): ? ? ? ?res = requests.get(href, headers=headers) ? ? ? ?html_data = etree.HTML(res.text) ? ? ? ?img_url_list = html_data.xpath("http://div[@class="picimglist pos"]/ul/li/a/img/@src") ? ? ? ?print(img_url_list) ? ? ? ?num = 0 ? ? ? ?for img_url in img_url_list: ? ? ? ? ? ?img_url = "".join(img_url.split("thumb_200_0_")) ? ? ? ? ? ?result = requests.get(img_url, headers=headers).content ? ? ? ? ? ?with open("妹子/" + title + str(num) + ".jpg", "wb")as f: ? ? ? ? ? ? ? ?f.write(result) ? ? ? ? ? ?num += 1 ? ? ? ? ? ?print(f"正在下載{title}第{num}張！！！！")

行業(yè)資料：添加即可領(lǐng)取PPT模板、簡歷模板、行業(yè)經(jīng)典書籍PDF。
面試題庫：歷年經(jīng)典，熱乎的大廠面試真題，持續(xù)更新中，添加獲取。
學習資料：含Python、爬蟲、數(shù)據(jù)分析、算法等學習視頻和文檔，添加獲取
交流加群：大佬指點迷津，你的問題往往有人遇到過，技術(shù)互助交流。