摘要:愛美之心人皆有之,正所謂窈窕淑女君子好逑,美好敲代碼的一天從好看的桌面壁紙開始,好看的桌面壁紙從美女壁紙開始。
大家好,我是辣條,這是我爬蟲系列的第26篇。
愛美之心人皆有之,正所謂窈窕淑女君子好逑,美好敲代碼的一天從好看的桌面壁紙開始,好看的桌面壁紙從美女壁紙開始。今天給大家?guī)砀@玻廊∶琅畧D片作為桌面壁紙!【防止有人捶我打擦邊球,都是正經(jīng)的圖片,自己想歪了是你的事,僅供學習交流】
網(wǎng)址:36壁紙
開發(fā)工具:pycharm 開發(fā)環(huán)境:python3.7, Windows10 使用工具包:requests, lxml
獲取網(wǎng)頁數(shù)據(jù)首先需要分辨數(shù)據(jù)是靜態(tài)數(shù)據(jù)還是動態(tài)數(shù)據(jù)檢驗方法在網(wǎng)頁源代碼搜索你需要數(shù)據(jù)的關(guān)鍵字,要是有的話就是靜態(tài)數(shù)據(jù),沒有的話就是動態(tài)數(shù)據(jù),當前網(wǎng)頁數(shù)據(jù)加載方式是通過url換頁,通過循環(huán)的方式加載頁面數(shù)據(jù),使用requests發(fā)送網(wǎng)絡(luò)請求獲取當前網(wǎng)頁數(shù)據(jù),通過xpath語法定位到網(wǎng)頁鏈接請求
記住在這里提取的數(shù)據(jù)是html鏈接我們要的一大批數(shù)據(jù)在詳情頁面
提取出當前網(wǎng)頁所以的詳情頁面鏈接,xpath提取的數(shù)據(jù)為列表,循環(huán)取出每個數(shù)據(jù)依次發(fā)送請求
我們要獲取的圖片都在這里按照通樣的方法使用xpath方式進行定位獲取到所以詳細圖片的位置
獲取到全部圖片地址,這個圖片需要注意的是是縮略圖我們需要找出縮略圖和大圖url的區(qū)別
https://pic.3gbizhi.com/2021/0922/20210922094032743.jpghttps://pic.3gbizhi.com/2021/0922/thumb_200_0_20210922094032743.jpg
縮略圖比大圖多了thumb_200_0_ 進行分割在進行拼接,對圖片的發(fā)送網(wǎng)絡(luò)請求獲取到詳細的圖片數(shù)據(jù),在進行保存
import requestsfrom lxml import etree?headers = {? ? ?"Cookie": "Hm_lvt_c8263f264e5db13b29b03baeb1840f60=1632291839,1632373348; Hm_lpvt_c8263f264e5db13b29b03baeb1840f60=1632373697", ? ?"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"}?for i in range(2, 3): ? ?url = f"https://www.3gbizhi.com/meinv/xgmn_{i}.html" ? ?response = requests.get(url, headers=headers) ? ?html = etree.HTML(response.text) ? ?href_list = html.xpath("http://div[@class="contlistw mtw"]//ul[@class="cl"]/li/a/@href") ? ?title_list = html.xpath("http://div[@class="contlistw mtw"]//ul[@class="cl"]/li/a/@title") ? ?for href, title in zip(href_list, title_list): ? ? ? ?res = requests.get(href, headers=headers) ? ? ? ?html_data = etree.HTML(res.text) ? ? ? ?img_url_list = html_data.xpath("http://div[@class="picimglist pos"]/ul/li/a/img/@src") ? ? ? ?print(img_url_list) ? ? ? ?num = 0 ? ? ? ?for img_url in img_url_list: ? ? ? ? ? ?img_url = "".join(img_url.split("thumb_200_0_")) ? ? ? ? ? ?result = requests.get(img_url, headers=headers).content ? ? ? ? ? ?with open("妹子/" + title + str(num) + ".jpg", "wb")as f: ? ? ? ? ? ? ? ?f.write(result) ? ? ? ? ? ?num += 1 ? ? ? ? ? ?print(f"正在下載{title}第{num}張!!!!")
行業(yè)資料:添加即可領(lǐng)取PPT模板、簡歷模板、行業(yè)經(jīng)典書籍PDF。
面試題庫:歷年經(jīng)典,熱乎的大廠面試真題,持續(xù)更新中,添加獲取。
學習資料:含Python、爬蟲、數(shù)據(jù)分析、算法等學習視頻和文檔,添加獲取
交流加群:大佬指點迷津,你的問題往往有人遇到過,技術(shù)互助交流。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/121157.html
摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:爬取分辨率超清唯美壁紙簡介壁紙的選擇其實很大程度上能看出電腦主人的內(nèi)心世界,有的人喜歡風景,有的人喜歡星空,有的人喜歡美女,有的人喜歡動物。 @[toc] 爬取5K分辨率超清唯美壁紙 簡介 壁紙的選擇其實很大程度上能看出電腦主人的內(nèi)心世界,有的人喜歡風景,有的人喜歡星空,有的人喜歡美女,有的人喜歡動物。然而,終究有一天你已經(jīng)產(chǎn)生審美疲勞了,但你下定決定要換壁紙的時候,又發(fā)現(xiàn)網(wǎng)上的壁紙要...
摘要:以上只是一個普通的爬蟲,并沒有用到什么框架,接下來將會寫框架爬取的,請繼續(xù)關(guān)注我的博客哦本人博客 python大規(guī)模爬取京東 主要工具 scrapy BeautifulSoup requests 分析步驟 打開京東首頁,輸入褲子將會看到頁面跳轉(zhuǎn)到了這里,這就是我們要分析的起點 我們可以看到這個頁面并不是完全的,當我們往下拉的時候?qū)吹綀D片在不停的加載,這就是ajax,但是當我...
摘要:大家好,我是辣條。最先審核沒通過,說我腳本涉嫌控制電腦違法違規(guī),經(jīng)過我再三的溝通之下,完整代碼刪除了,希望能通過審核。 大家好,我是辣條。? 前言 開學沒多久,事又多正愁缺寫博客的素材,這不馬上就來了,憨憨室友又要整活?,看在友(紅)情(包)的份上必須幫忙。 我起初的想法是通過郵箱發(fā)送表白...
前言 最近無意間在知乎專欄看到有人使用python爬取了mm131的圖片。想著自己也有過爬蟲的開發(fā)經(jīng)驗(抱著學習的態(tài)度),故使用java也來寫個小爬蟲,爬蟲框架用的是webmagic,傳送門:https://github.com/code4craft/webmagic 實現(xiàn) 整個爬蟲項目如下圖,極其精簡,其中主要實現(xiàn)類是Mm131Spider showImg(http://pc3dvrbm9...
閱讀 1016·2021-09-26 09:55
閱讀 3556·2021-09-24 10:30
閱讀 1364·2021-09-08 09:36
閱讀 2553·2021-09-07 09:58
閱讀 603·2019-08-30 15:56
閱讀 765·2019-08-29 18:32
閱讀 3593·2019-08-29 15:13
閱讀 1840·2019-08-29 13:49