国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

scrapy簡單學(xué)習(xí)6—爬取百度貼吧圖片(仿寫向)

trigkit4 / 3058人閱讀

摘要:主要是對上一篇文章的簡單仿寫,大家以后想批量下載什么圖片照格式仿寫就好。

主要是對上一篇文章的簡單仿寫,大家以后想批量下載什么圖片照格式仿寫就好。由于本人是tfboys的粉絲,所以平常沒事愛逛貼吧欣賞我家三小只的美圖,所以這次就以貼吧[小王的討論樓]為例,批量爬取該樓的圖片[1]

itme.py編寫
import scrapy


class WangyuantuItem(scrapy.Item):
    image_urls=scrapy.Field()#就編寫個圖片路徑就好
spider的編寫
import scrapy
import requests
import os
from wangyuantu.items import WangyuantuItem

class XiaowangSpider(scrapy.Spider):
    name = "xiaowang"
    allowed_domains = ["tieba.baidu.com/p/3888309273"]
    start_urls = [
        "http://tieba.baidu.com/p/3888309273?pn=%d" % i for i in range(21,45)
        ]
    
    

    def parse(self, response):
        item = WangyuantuItem()
        item["image_urls"]=response.xpath("http://img[@class="BDE_Image"]/@src").extract()
        
        yield item
pipelines編寫:這個部分都是可以套用的
import requests
from wangyuantu import settings
import os

#圖片下載類
class ImageDownloadPipeline(object):
    def process_item(self, item, spider):
        if "image_urls" in item:#如何‘圖片地址’在項目中
            images = []#定義圖片空集
            
            dir_path = "%s/%s" % (settings.IMAGES_STORE, spider.name)

            if not os.path.exists(dir_path):
                os.makedirs(dir_path)
            for image_url in item["image_urls"]:
                us = image_url.split("/")[3:]
                image_file_name = "_".join(us)
                file_path = "%s/%s" % (dir_path, image_file_name)
                images.append(file_path)
                if os.path.exists(file_path):
                    continue

                with open(file_path, "wb") as handle:
                    response = requests.get(image_url, stream=True)
                    for block in response.iter_content(1024):
                        if not block:
                            break
settings編寫
BOT_NAME = "wangyuantu"

SPIDER_MODULES = ["wangyuantu.spiders"]
NEWSPIDER_MODULE = "wangyuantu.spiders"

ITEM_PIPELINES = {"wangyuantu.pipelines.ImageDownloadPipeline": 1}
#圖片儲存
IMAGES_STORE = "C:UsersLenovoPictures"
結(jié)果

寄語:wili源源小可愛,希望你快快樂樂的長大

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/37632.html

相關(guān)文章

  • scrapy簡單學(xué)習(xí)3—簡單爬取中文網(wǎng)站(仿寫向

    摘要:仿寫原創(chuàng)單頁面爬取爬取網(wǎng)站聯(lián)合早報網(wǎng)左側(cè)的標(biāo)題,連接,內(nèi)容定義爬取內(nèi)容文件編寫保存文件命令備注打開出現(xiàn)亂碼,用記事本轉(zhuǎn)換成編碼,打開中文可正常。 仿寫原創(chuàng)——單頁面爬取爬取網(wǎng)站:聯(lián)合早報網(wǎng)左側(cè)的標(biāo)題,連接,內(nèi)容1.item.py定義爬取內(nèi)容 import scrapy class MaiziItem(scrapy.Item): title = scrapy.Field() ...

    王陸寬 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 零基礎(chǔ)如何學(xué)爬蟲技術(shù)

    摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...

    KunMinX 評論0 收藏0
  • 【python爬蟲學(xué)習(xí) 】python3.7 scrapy 安裝,demo實例,實踐:爬取百度

    摘要:安裝可能的問題問題解決實例教程中文教程文檔第一步創(chuàng)建項目目錄第二步進(jìn)入創(chuàng)建爬蟲第三步創(chuàng)建存儲容器,復(fù)制項目下的重命名為第四步修改提取數(shù)據(jù)引入數(shù)據(jù)容器第五步解決百度首頁網(wǎng)站抓取空白問題設(shè)置設(shè)置用戶代理解決相關(guān)解決數(shù)據(jù)保存亂 pip 安裝 pip install scrapy 可能的問題: 問題/解決:error: Microsoft Visual C++ 14.0 is requi...

    asoren 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<