摘要:三個重點,我隱藏了的地址,本爬蟲只適用于的抓取。每個帖子以帖子名為文件名新建一個文件并把帖子內圖片保存下來。
三個重點,我隱藏了1024的地址,本爬蟲只適用于1024的抓取。每個帖子以帖子名為文件名新建一個文件并把帖子內圖片保存下來。
url_start設置起始頁 url_end設置結束頁
有問題的留言,我看到就會回復
import requests import re import time from bs4 import BeautifulSoup import os url_start = "url1" url_end = "url2" # 獲取圖片鏈接并保存到文件夾的函數 def getIMG(article_url): # time.sleep(1) urls = [] try: html = requests.get(article_url) html.encoding = "gbk" soup = BeautifulSoup(html.text, "html.parser") part_picURL = re.findall("src="http://img(.+?.jpg)"",html.text,re.S) for each in part_picURL: picURL = "http://img" + each urls.append(picURL) i=0 for each in urls: try: pic = requests.get(each, timeout = 10) folder_name = soup.select("h4")[0].text if os.path.isdir(folder_name): pass else: os.mkdir(folder_name) print("文件夾"+ "$ " + folder_name + "$" + "創建完成") file_name = folder_name+"/" + folder_name + str(i) + ".jpg" fp = open(file_name,"wb") fp.write(pic.content) fp.close() i += 1 except: pass print("圖片下載完成") except: pass return urls url_list = [] #獲取當前頁面文章列表鏈接并翻頁 def getlist(url_Start): headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"} req = requests.get(url_Start) req.encoding = "gbk" url_index = re.findall(""打開新窗口" href="htm_(.+?.html)" target="_blank">",req.text,re.S) for p in url_index: full_url = "http://cl.gtta.pw/htm_" + p url_list.append(full_url) #判斷是否要翻頁 urls_next = re.findall("false;}">下一頁",req.text,re.S)[0] url_next = "http://cl.gtta.pw/" + urls_next if url_next != url_end: getlist(url_next) else: print("已到達末頁") return url_list lists = getlist(url_start) print(len(lists)) for list in lists: img = getIMG(list) print(img)
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38440.html
摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。 爬蟲修煉之道——從網頁中提取結構化數據并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲,如何將相對URL轉為絕對URL,如何限速,...
摘要:下載指定網站上的妹子圖片,這里只抓了前頁的圖片,可根據需要自己設置頁數值為圖片類型,大家可以自行更改值體驗一下,有問題留言給我,看到就會解答大胸妹美腿控有顏值大雜燴小翹臀鏈接已處理完畢圖片下載完成 下載指定網站上的妹子圖片,這里只抓了前100頁的圖片,可根據需要自己設置頁數cat值為圖片類型,大家可以自行更改cat值體驗一下,有問題留言給我,看到就會解答2 = 大胸妹3 = 美腿控4 ...
摘要:列入全國計算機二級取代,部分城市試點,引入高中。建議通過視頻學習,這樣不但節省時間,而且效果很好。能否回憶起那個陡峭的學習曲線問題越多,學的越快。出報告每完成一個項目,總結報告,必不可少。結構化學習,才是你我需要真正培養的能力。 編程就如同你學習開車,即使,你可以一口氣,說出一輛車的全部零部件,以及內燃機進氣、壓縮、做功和排氣過程,但你就是不去練如何開車,怎么上路。你確定,你敢開嗎?你...
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:楚江數據是專業的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務,服務范圍涵蓋社交網絡電子商務分類信息學術研究等。 楚江數據是專業的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...
閱讀 954·2021-11-25 09:43
閱讀 2291·2019-08-30 15:55
閱讀 3153·2019-08-30 15:44
閱讀 2053·2019-08-29 16:20
閱讀 1453·2019-08-29 12:12
閱讀 1609·2019-08-26 12:19
閱讀 2283·2019-08-26 11:49
閱讀 1712·2019-08-26 11:42