小白爬蟲scrapy第三篇

laznrbfe 發(fā)布于2019-07-30 15:10 / 1585人閱讀

摘要：基于的樹狀結(jié)構(gòu)，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。起初的提出的初衷是將其作為一個(gè)通用的介于與間的語法模型。

在你的spiders目錄下創(chuàng)建自己第一個(gè)爬蟲項(xiàng)目,我我這兒命名為AiquerSpider.py
然后編輯文件

# !/usr/bin/python
# -*- coding: UTF-8 -*-
import scrapy
from scrapy.http import Request

以上是我所需要導(dǎo)入使用的包,你也可以自定義別的包.
接下來咱們創(chuàng)建類:

# !/usr/bin/python
# -*- coding: UTF-8 -*-
import scrapy
from scrapy.http import Request

class AiquerSpider(scrapy.Spider):
    # name 定義爬蟲名稱
    name = ""
    # allowed_domains定義訪問域
    allowed_domains = []
    # bash_url定義要爬取的網(wǎng)站
    bash_url = ""

    # 這個(gè)方法是必須有不然你的爬蟲跑不起來(同等java中的main方法)
    def parse(self, response):
        
        pass

在寫代碼之前呢咱們要去做點(diǎn)大事,具體看下面,嘿嘿!
咱們要首先定義集合就是items.py中用來存放的數(shù)據(jù)
咱們看看網(wǎng)頁吧,在具體說需要哪些東西.

上面呢我們需要網(wǎng)站地址用戶名稱視頻圖片視頻地址
下載視頻的話我這兒就不做講解了我們就獲取這幾個(gè)參數(shù)為例子
首先,我們需要愛奇藝網(wǎng)站用戶地址做分析

http://www.iqiyi.com/u/141242...
http://www.iqiyi.com/u/用戶ID 這一段是找到用戶網(wǎng)站首頁
/v 這個(gè)是該用戶下的視頻
這樣我們就了解到了如何去手動(dòng)指定用戶并且爬取他下面的視頻了
廢話不多說,先上items的代碼

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class AiquerItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 視頻名稱
    video_name = scrapy.Field()
    # 視頻時(shí)間
    video_time = scrapy.Field()
    # 視頻圖片路徑
    video_imgurl = scrapy.Field()
    # 視頻路徑
    video_url = scrapy.Field()
    pass

我們的items就寫完了
再回到咱們的爬蟲上面,具體解釋都在里面的注釋中了

# !/usr/bin/python
# -*- coding: UTF-8 -*-
# 這里是自己導(dǎo)入的包
import scrapy
from scrapy.http import Request
from AiQuer.items import AiquerItem
# 定義類
class AiquerSpider(scrapy.Spider):
    # http://www.iqiyi.com/u/1412422046/v?page=1&video_type=1
    # name 定義爬蟲名稱
    name = "AiquerSpider"
    # allowed_domains定義訪問域
    allowed_domains = ["iqiyi.com"]
    # bash_url定義要爬取的網(wǎng)站
    bash_url = "http://www.iqiyi.com/u/"
    # 做拼接地址的結(jié)尾
    bashurl = "/v?page=1"
    user_id = None

    # 用來獲取輸入的用戶編號返回拼接地址
    def start(self):
        self.user_id = self.validateIsNull(input(u"請輸入用戶編號:"))
        if self.user_id:
            url = self.bash_url + self.user_id + self.bashurl
            return url


    def start_requests(self):
        # 首先獲取用戶首頁地址
        url = self.start()
        # Request函數(shù)第一個(gè)是地址,第二個(gè)是調(diào)用的方法
        yield Request(url, self.max_page)
        #yield Request("http://www.iqiyi.com/u/1412422046/v?page=2", self.parse)

    # 非空驗(yàn)證
    def validateIsNull(self, user_id):
        if user_id.strip() == "":
            return None
        else:
            return user_id

    # 獲取最大頁數(shù)
    def max_page(self, response):
        max_num = int(response.xpath("http://div//a[last()-1]/text()").extract()[0])
        for i in range(1, max_num + 1):
            url = self.bash_url + self.user_id + "/v?page=" + str(i) + "&video_type=1"
            # print(url)
            yield Request(url, self.parse)

    # 獲取頁面需要的數(shù)據(jù)
    def parse(self, response):
        item = AiquerItem()
        # 注釋代碼塊用來做測試的,小伙伴可以拿出來一個(gè)一個(gè)測試
        """
        names = response.xpath("http://ul/li//div//p//a/@title").extract()
        times = response.xpath("http://div//span[@class="mod-listTitle_right"]/text()").extract()
        imgurls = response.xpath("http://div[@class="site-piclist_pic"]//a//img/@src").extract()
        urls = response.xpath("http://div[@class="site-piclist_pic"]//a/@href").extract()
        print(names)
        print(times)
        print(imgurls)
        print(urls)
        """
        # 通過xpath去尋找HTML頁面中指定數(shù)據(jù)封裝在items類中
        item["video_name"] = response.xpath("http://ul/li//div//p//a/@title").extract()
        item["video_time"] = response.xpath("http://div//span[@class="mod-listTitle_right"]/text()").extract()
        item["video_imgurl"] = response.xpath("http://div[@class="site-piclist_pic"]//a//img/@src").extract()
        item["video_url"] = response.xpath("http://div[@class="site-piclist_pic"]//a/@href").extract()
        return item

有同學(xué)肯定會(huì)問("http://div[@class="site-piclist_pic"]//a/@href")這是啥玩意
Xpath:

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。 
XPath基于XML的樹狀結(jié)構(gòu)，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點(diǎn)的能力。 
起初XPath的提出的初衷是將其作為一個(gè)通用的、介于XPointer與XSL間的語法模型。

在這篇中是要有點(diǎn)XPath的基礎(chǔ)的可以先去看看這個(gè)教程配合這個(gè)教程一起寫提高XPath熟練度.
教程鏈接:XPath教程
接下來就是如何保存這些數(shù)據(jù)了
介紹兩種一個(gè)是直接保存為文件,另外一個(gè)是保存到數(shù)據(jù)庫
請看下篇