Python爬蟲實戰：1000圖庫大全【別輕易點進來】

番茄西紅柿發布于2021-11-11 16:54 / 3160人閱讀

摘要：大家好我是辣條。今天給大家帶來爬蟲實戰例之篇爬蟲之路永無止境。

大家好，我是辣條。

今天給大家帶來【爬蟲實戰100例】之41篇，爬蟲之路永無止境。

爬取目標

網址：尺度有點大，遭不住...

效果展示

工具準備

開發工具：pycharm 開發環境：python3.7， Windows11 使用工具包：requests

項目解析思路

獲取當當前網頁的跳轉地址，當前頁面為主頁面數據，我們需要的數據別有一番天地，獲取到網頁信息提取出所有的跳轉地址，獲取到源碼里的a標簽就行當前網頁的加載方式為靜態數據，直接請求網頁地址；

url = 'https://www.xxxx.com/

從源代碼里提取到所以的跳轉地址

提取的方式可自行選擇，小編這里使用正則的方式提取數據，提取詳情頁面的地址以及標題，用來保存圖片起名字，獲取到進入詳情頁面的地址后對地址發送請求，詳情頁面的數據也分為很多的頁面，每個頁面有好幾張圖片，需要對網址進行拼接，構造出新的地址信息，

 ? ?for i in range(1, int(page_num[0]) + 1): ? ? ? ?if i == 1: ? ? ? ? ? ?new_url = info_url ? ? ? ?else: ? ? ? ? ? ?new_url = info_url.replace('.html', f'_{i}.html') ? ? ? ?# print(new_url) ? ? ? ?jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

請求之后提取出所有的圖片地址在對圖片地址發送請求，保存數據大功告成！！

簡易源碼分享

import requests ? import re ? ? ? ??headers = { ? ?'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}for i in range(1, 20): ? ?url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i) ? ?response = requests.get(url, headers=headers) ? ?# print(response.content.decode('gbk')) ? ?# 提取想要的數據信息 ? ?data_list = re.findall(' ', response.content.decode('gbk')) ? ?# print(data_list) ? ?num = 0 ? ?for info_url, title in data_list: ? ? ? ?# print(info_url) ? ? ? ? # print(title) ? ? ? ?res = requests.get(info_url, headers=headers).content.decode('gbk') ? ? ? ?# print(res) ? ? ? ?page_num = re.findall('
共(.*?)頁: ', res) ? ? ? ?# print(page_num)? ? ? ? ?for i in range(1, int(page_num[0]) + 1): ? ? ? ? ? ?if i == 1: ? ? ? ? ? ? ? ?new_url = info_url ? ? ? ? ? ?else: ? ? ? ? ? ? ? ?new_url = info_url.replace('.html', f'_{i}.html') ? ? ? ? ? ?# print(new_url) ? ? ? ? ? ?jpg_data = requests.get(new_url, headers=headers).content.decode('gbk') ? ? ? ? ? ?# print(jpg_data) ? ? ? ? ? ?jpg_url_list = re.findall('

', jpg_data) ? ? ? ? ? ?# print(jpg_url_list) ? ? ? ? ? ?for jgp_url in jpg_url_list: ? ? ? ? ? ? ? ?result = requests.get(jgp_url, headers=headers).content ? ? ? ? ? ? ? ?f = open('1000圖庫/' + title + "-" + str(num) + ".jpg", 'wb') ? ? ? ? ? ? ? ?f.write(result) ? ? ? ? ? ? ? ?num += 1 ? ? ? ? ? ? ? ?print(f"正在下載{title}第{num}張")

??👇🏻?疑難解答、學習資料、路線圖可通過搜索下方?👇🏻

云服務器 GPU云服務器 python爬蟲實戰懂事的已經點進來看了 python3爬蟲實戰爬蟲實戰

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/122985.html

Evil Python

摘要：用將倒放這次讓我們一個用做一個小工具將動態圖片倒序播放發現引力波的機構使用的包美國科學家日宣布，他們去年月首次探測到引力波。宣布這一發現的，是激光干涉引力波天文臺的負責人。這個機構誕生于上世紀年代，進行引力波觀測已經有近年。那些年我們寫過的爬蟲從寫 nodejs 的第一個爬蟲開始陸陸續續寫了好幾個爬蟲，從爬拉勾網上的職位信息到爬豆瓣上的租房帖子，再到去爬知乎上的妹子照片什么的，爬蟲...

Turbo 2019-07-30 15:07 評論0 收藏0
python kotlin 人工智能資料大全

摘要：重新定義實戰鏈接提取碼征服語言基礎與典型應用鏈接提取碼算法圖解像小說一樣有趣的算法入門書鏈接提取碼數據科學導論語言實現鏈接提取碼數據結構與算法語言描述裘宗燕編著北京機械工業出版社鏈接提取碼深入實踐陳韶健鏈接提取碼深入淺出鏈接提取碼柯林斯英重新定義Spring Cloud實戰鏈接: https://pan.baidu.com/s/1sjl6...提取碼: nn38 征服PYTHON-語...

dailybird 2019-08-23 18:20 評論0 收藏0
python kotlin 人工智能資料大全

摘要：重新定義實戰鏈接提取碼征服語言基礎與典型應用鏈接提取碼算法圖解像小說一樣有趣的算法入門書鏈接提取碼數據科學導論語言實現鏈接提取碼數據結構與算法語言描述裘宗燕編著北京機械工業出版社鏈接提取碼深入實踐陳韶健鏈接提取碼深入淺出鏈接提取碼柯林斯英重新定義Spring Cloud實戰鏈接: https://pan.baidu.com/s/1sjl6...提取碼: nn38 征服PYTHON-語...

Scliang 2019-07-31 10:37 評論0 收藏0
python kotlin 人工智能資料大全

摘要：重新定義實戰鏈接提取碼征服語言基礎與典型應用鏈接提取碼算法圖解像小說一樣有趣的算法入門書鏈接提取碼數據科學導論語言實現鏈接提取碼數據結構與算法語言描述裘宗燕編著北京機械工業出版社鏈接提取碼深入實踐陳韶健鏈接提取碼深入淺出鏈接提取碼柯林斯英重新定義Spring Cloud實戰鏈接: https://pan.baidu.com/s/1sjl6...提取碼: nn38 征服PYTHON-語...

buildupchao 2019-08-16 18:24 評論0 收藏0
Python各熱門方向常用學習、工作網址大全【7000字大總結】

摘要：做這一領域的工作，有很多網站能夠起到輔助性的作用。再加上爬蟲相對于其他熱門方向來說，更容易學。也促使更多人會優先選擇學習爬蟲。能夠代替手工完成手工無法完成的測試任務，并且可以記錄相關數據及報告。 ...

linkFly 2021-09-26 09:55 評論0 收藏0