爬蟲基礎練習－python批量下載圖片之達蓋爾的旗幟

pepperwang 發布于2019-07-25 11:30 / 1174人閱讀

摘要：三個重點，我隱藏了的地址，本爬蟲只適用于的抓取。每個帖子以帖子名為文件名新建一個文件并把帖子內圖片保存下來。

三個重點，我隱藏了1024的地址，本爬蟲只適用于1024的抓取。每個帖子以帖子名為文件名新建一個文件并把帖子內圖片保存下來。

url_start設置起始頁 url_end設置結束頁
有問題的留言，我看到就會回復

1編碼 2文章頁鏈接匹配 3文件夾操作


import requests
import re
import time
from bs4 import BeautifulSoup
import os

url_start = "url1"
url_end = "url2"


# 獲取圖片鏈接并保存到文件夾的函數
def getIMG(article_url):
    # time.sleep(1)
    urls = []
    try:
        html = requests.get(article_url)
        html.encoding = "gbk"
        soup = BeautifulSoup(html.text, "html.parser")
        part_picURL = re.findall("src="http://img(.+?.jpg)"",html.text,re.S)
        for each in part_picURL:
            picURL = "http://img" + each
            urls.append(picURL)
        i=0
        for each in urls:
            try:
                pic = requests.get(each, timeout = 10)
                folder_name = soup.select("h4")[0].text
                if os.path.isdir(folder_name):
                    pass
                else:
                    os.mkdir(folder_name)
                    print("文件夾"+ "$ " + folder_name + "$" + "創建完成")
                file_name = folder_name+"/" + folder_name + str(i) + ".jpg"
                fp = open(file_name,"wb")
                fp.write(pic.content)
                fp.close()
                i += 1
            except:
                pass
        print("圖片下載完成")
    except:
        pass
    return urls


url_list = []
#獲取當前頁面文章列表鏈接并翻頁
def getlist(url_Start):
    headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36"}
    req = requests.get(url_Start)
    req.encoding = "gbk"
    url_index = re.findall(""打開新窗口" href="htm_(.+?.html)" target="_blank">",req.text,re.S)
    for p in url_index:
        full_url = "http://cl.gtta.pw/htm_" + p
        url_list.append(full_url)
    #判斷是否要翻頁
    urls_next = re.findall("false;}">下一頁",req.text,re.S)[0]
    url_next = "http://cl.gtta.pw/" + urls_next
    if url_next != url_end:
        getlist(url_next)
    else:
        print("已到達末頁")
    return url_list


lists = getlist(url_start)
print(len(lists))
for list in lists:
    img = getIMG(list)
    print(img)

云服務器 GPU云服務器 python基礎練習圖片爬蟲軟件下載 python爬蟲基礎入門 python爬蟲基礎知識

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/38440.html

爬蟲 - 收藏集 - 掘金

摘要：在這之前，還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。爬蟲修煉之道——從網頁中提取結構化數據并保存（以爬取糗百文本板塊所有糗事為例） - 后端 - 掘金歡迎大家關注我的專題：爬蟲修煉之道上篇爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲，如何將相對URL轉為絕對URL，如何限速，...

1fe1se 2019-07-31 10:58 評論0 收藏0
爬蟲基礎練習—python爬蟲下載豆瓣妹子圖片

摘要：下載指定網站上的妹子圖片，這里只抓了前頁的圖片，可根據需要自己設置頁數值為圖片類型，大家可以自行更改值體驗一下，有問題留言給我，看到就會解答大胸妹美腿控有顏值大雜燴小翹臀鏈接已處理完畢圖片下載完成下載指定網站上的妹子圖片，這里只抓了前100頁的圖片，可根據需要自己設置頁數cat值為圖片類型，大家可以自行更改cat值體驗一下，有問題留言給我，看到就會解答2 ＝大胸妹3 ＝美腿控4 ...

klinson 2019-07-25 11:29 評論0 收藏0
學習python12小時后，告訴你，學python真沒你想的那么難！

摘要：列入全國計算機二級取代，部分城市試點，引入高中。建議通過視頻學習，這樣不但節省時間，而且效果很好。能否回憶起那個陡峭的學習曲線問題越多，學的越快。出報告每完成一個項目，總結報告，必不可少。結構化學習，才是你我需要真正培養的能力。編程就如同你學習開車，即使，你可以一口氣，說出一輛車的全部零部件，以及內燃機進氣、壓縮、做功和排氣過程，但你就是不去練如何開車，怎么上路。你確定，你敢開嗎？你...

Kaede 2019-07-31 10:29 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0