摘要:主要是對上一篇文章的簡單仿寫,大家以后想批量下載什么圖片照格式仿寫就好。
主要是對上一篇文章的簡單仿寫,大家以后想批量下載什么圖片照格式仿寫就好。由于本人是tfboys的粉絲,所以平常沒事愛逛貼吧欣賞我家三小只的美圖,所以這次就以貼吧[小王的討論樓]為例,批量爬取該樓的圖片[1]
itme.py編寫import scrapy class WangyuantuItem(scrapy.Item): image_urls=scrapy.Field()#就編寫個圖片路徑就好spider的編寫
import scrapy import requests import os from wangyuantu.items import WangyuantuItem class XiaowangSpider(scrapy.Spider): name = "xiaowang" allowed_domains = ["tieba.baidu.com/p/3888309273"] start_urls = [ "http://tieba.baidu.com/p/3888309273?pn=%d" % i for i in range(21,45) ] def parse(self, response): item = WangyuantuItem() item["image_urls"]=response.xpath("http://img[@class="BDE_Image"]/@src").extract() yield itempipelines編寫:這個部分都是可以套用的
import requests from wangyuantu import settings import os #圖片下載類 class ImageDownloadPipeline(object): def process_item(self, item, spider): if "image_urls" in item:#如何‘圖片地址’在項目中 images = []#定義圖片空集 dir_path = "%s/%s" % (settings.IMAGES_STORE, spider.name) if not os.path.exists(dir_path): os.makedirs(dir_path) for image_url in item["image_urls"]: us = image_url.split("/")[3:] image_file_name = "_".join(us) file_path = "%s/%s" % (dir_path, image_file_name) images.append(file_path) if os.path.exists(file_path): continue with open(file_path, "wb") as handle: response = requests.get(image_url, stream=True) for block in response.iter_content(1024): if not block: breaksettings編寫
BOT_NAME = "wangyuantu" SPIDER_MODULES = ["wangyuantu.spiders"] NEWSPIDER_MODULE = "wangyuantu.spiders" ITEM_PIPELINES = {"wangyuantu.pipelines.ImageDownloadPipeline": 1} #圖片儲存 IMAGES_STORE = "C:UsersLenovoPictures"結(jié)果 寄語:wili源源小可愛,希望你快快樂樂的長大
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37632.html
摘要:仿寫原創(chuàng)單頁面爬取爬取網(wǎng)站聯(lián)合早報網(wǎng)左側(cè)的標(biāo)題,連接,內(nèi)容定義爬取內(nèi)容文件編寫保存文件命令備注打開出現(xiàn)亂碼,用記事本轉(zhuǎn)換成編碼,打開中文可正常。 仿寫原創(chuàng)——單頁面爬取爬取網(wǎng)站:聯(lián)合早報網(wǎng)左側(cè)的標(biāo)題,連接,內(nèi)容1.item.py定義爬取內(nèi)容 import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() ...
摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
摘要:安裝可能的問題問題解決實例教程中文教程文檔第一步創(chuàng)建項目目錄第二步進(jìn)入創(chuàng)建爬蟲第三步創(chuàng)建存儲容器,復(fù)制項目下的重命名為第四步修改提取數(shù)據(jù)引入數(shù)據(jù)容器第五步解決百度首頁網(wǎng)站抓取空白問題設(shè)置設(shè)置用戶代理解決相關(guān)解決數(shù)據(jù)保存亂 pip 安裝 pip install scrapy 可能的問題: 問題/解決:error: Microsoft Visual C++ 14.0 is requi...
閱讀 1000·2021-11-22 13:52
閱讀 1441·2021-11-19 09:40
閱讀 3122·2021-11-16 11:44
閱讀 1263·2021-11-15 11:39
閱讀 3893·2021-10-08 10:04
閱讀 5333·2021-09-22 14:57
閱讀 3096·2021-09-10 10:50
閱讀 3177·2021-08-17 10:13