Python網(wǎng)頁(yè)信息采集：使用PhantomJS采集淘寶天貓商品內(nèi)容

z2xy 發(fā)布于2019-07-25 10:35 / 1246人閱讀

摘要：，引言最近一直在看爬蟲(chóng)框架，并嘗試使用框架寫(xiě)一個(gè)可以實(shí)現(xiàn)網(wǎng)頁(yè)信息采集的簡(jiǎn)單的小程序。本文主要介紹如何使用結(jié)合采集天貓商品內(nèi)容，文中自定義了一個(gè)，用來(lái)采集需要加載的動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容。

1，引言

最近一直在看Scrapy 爬蟲(chóng)框架，并嘗試使用Scrapy框架寫(xiě)一個(gè)可以實(shí)現(xiàn)網(wǎng)頁(yè)信息采集的簡(jiǎn)單的小程序。嘗試過(guò)程中遇到了很多小問(wèn)題，希望大家多多指教。

本文主要介紹如何使用Scrapy結(jié)合PhantomJS采集天貓商品內(nèi)容，文中自定義了一個(gè)DOWNLOADER_MIDDLEWARES，用來(lái)采集需要加載js的動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容。看了很多介紹DOWNLOADER_MIDDLEWARES資料，總結(jié)來(lái)說(shuō)就是使用簡(jiǎn)單，但會(huì)阻塞框架，所以性能方面不佳。一些資料中提到了自定義DOWNLOADER_HANDLER或使用scrapyjs可以解決阻塞框架的問(wèn)題，有興趣的小伙伴可以去研究一下，這里就不多說(shuō)了。

2，具體實(shí)現(xiàn)

2.1，環(huán)境需求

需要執(zhí)行以下步驟，準(zhǔn)備Python開(kāi)發(fā)和運(yùn)行環(huán)境：

Python--官網(wǎng)下載安裝并部署好環(huán)境變量（本文使用Python版本為3.5.1）

lxml-- 官網(wǎng)庫(kù)下載對(duì)應(yīng)版本的.whl文件，然后命令行界面執(zhí)行 "pip install .whl文件路徑"

Scrapy--命令行界面執(zhí)行 "pip install Scrapy"，詳細(xì)請(qǐng)參考《Scrapy的第一次運(yùn)行測(cè)試》

selenium--命令行界面執(zhí)行 "pip install selenium"

PhantomJS -- 官網(wǎng)下載

上述步驟展示了兩種安裝：1，安裝下載到本地的wheel包；2，用Python安裝管理器執(zhí)行遠(yuǎn)程下載和安裝。注：包的版本需要和python版本配套

2.2，開(kāi)發(fā)和測(cè)試過(guò)程

首先找到需要采集的網(wǎng)頁(yè)，這里簡(jiǎn)單找了一個(gè)天貓商品，網(wǎng)址https://world.tmall.com/item/526449276263.htm，頁(yè)面如下：

然后開(kāi)始編寫(xiě)代碼，以下代碼默認(rèn)都是在命令行界面執(zhí)行

1)，創(chuàng)建scrapy爬蟲(chóng)項(xiàng)目tmSpider

E:python-3.5.1>scrapy startproject tmSpider

2)，修改settings.py配置

更改ROBOTSTXT_OBEY的值為False；

關(guān)閉scrapy默認(rèn)的下載器中間件；

加入自定義DOWNLOADER_MIDDLEWARES。

配置如下：

DOWNLOADER_MIDDLEWARES = {
    "tmSpider.middlewares.middleware.CustomMiddlewares": 543,
    "scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware": None
}

3)，在項(xiàng)目目錄下創(chuàng)建middlewares文件夾,然后在文件夾下創(chuàng)建middleware.py文件，代碼如下：

# -*- coding: utf-8 -*-

from scrapy.exceptions import IgnoreRequest
from scrapy.http import HtmlResponse, Response

import tmSpider.middlewares.downloader as downloader

class CustomMiddlewares(object):
    def process_request(self, request, spider):
        url = str(request.url)
        dl = downloader.CustomDownloader()
        content = dl.VisitPersonPage(url)
        return HtmlResponse(url, status = 200, body = content)
    
    def process_response(self, request, response, spider):
        if len(response.body) == 100:
            return IgnoreRequest("body length == 100")
        else:
            return response

4)，使用selenium和PhantomJS寫(xiě)一個(gè)網(wǎng)頁(yè)內(nèi)容下載器，同樣在上一步創(chuàng)建好的middlewares文件夾中創(chuàng)建downloader.py文件，代碼如下：

# -*- coding: utf-8 -*-
import time
from scrapy.exceptions import IgnoreRequest
from scrapy.http import HtmlResponse, Response
from selenium import webdriver
import selenium.webdriver.support.ui as ui 

class CustomDownloader(object):
    def __init__(self):
        # use any browser you wish
        cap = webdriver.DesiredCapabilities.PHANTOMJS
        cap["phantomjs.page.settings.resourceTimeout"] = 1000
        cap["phantomjs.page.settings.loadImages"] = True
        cap["phantomjs.page.settings.disk-cache"] = True
        cap["phantomjs.page.customHeaders.Cookie"] = "SINAGLOBAL=3955422793326.2764.1451802953297; "
        self.driver = webdriver.PhantomJS(executable_path="F:/phantomjs/bin/phantomjs.exe", desired_capabilities=cap)
        wait = ui.WebDriverWait(self.driver,10)
    
    def VisitPersonPage(self, url):
        print("正在加載網(wǎng)站.....")
        self.driver.get(url)
        time.sleep(1)
        # 翻到底，詳情加載
        js="var q=document.documentElement.scrollTop=10000"
        self.driver.execute_script(js)
        time.sleep(5)
        content = self.driver.page_source.encode("gbk", "ignore")
        print("網(wǎng)頁(yè)加載完畢.....")
        return content

    def __del__(self):
        self.driver.quit()

5) 創(chuàng)建爬蟲(chóng)模塊

在項(xiàng)目目錄E:python-3.5.1tmSpider，執(zhí)行如下代碼：

E:python-3.5.1	mSpider>scrapy genspider tmall "tmall.com"

執(zhí)行后，項(xiàng)目目錄E:python-3.5.1tmSpidertmSpiderspiders下會(huì)自動(dòng)生成tmall.py程序文件。該程序中parse函數(shù)處理scrapy下載器返回的網(wǎng)頁(yè)內(nèi)容，采集網(wǎng)頁(yè)信息的方法可以是：

使用xpath或正則方式從response.body中采集所需字段，

通過(guò)gooseeker api獲取的內(nèi)容提取器實(shí)現(xiàn)一站轉(zhuǎn)換所有字段，而且不用手工編寫(xiě)轉(zhuǎn)換用的xpath（如何獲取內(nèi)容提取器請(qǐng)參考python使用xslt提取網(wǎng)頁(yè)數(shù)據(jù)）,代碼如下：

# -*- coding: utf-8 -*-
import time
import scrapy

import tmSpider.gooseeker.gsextractor as gsextractor

class TmallSpider(scrapy.Spider):
    name = "tmall"
    allowed_domains = ["tmall.com"]
    start_urls = (
        "https://world.tmall.com/item/526449276263.htm",
    )
    
    # 獲得當(dāng)前時(shí)間戳
    def getTime(self):
        current_time = str(time.time())
        m = current_time.find(".")
        current_time = current_time[0:m]
        return current_time

    def parse(self, response):
        html = response.body
        print("----------------------------------------------------------------------------")
        extra=gsextractor.GsExtractor()
        extra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e", "淘寶天貓_商品詳情30474","tmall","list")

        result = extra.extract(html)
        print(str(result).encode("gbk", "ignore").decode("gbk"))
        #file_name = "F:/temp/淘寶天貓_商品詳情30474_" + self.getTime() + ".xml"
        #open(file_name,"wb").write(result)

6)，啟動(dòng)爬蟲(chóng)

在E:python-3.5.1tmSpider項(xiàng)目目錄下執(zhí)行命令

E:python-3.5.1simpleSpider>scrapy crawl tmall

輸出結(jié)果:

提一下，上述命令只能一次啟動(dòng)一個(gè)爬蟲(chóng)，如果想同時(shí)啟動(dòng)多個(gè)呢？那就需要自定義一個(gè)爬蟲(chóng)啟動(dòng)模塊了，在spiders下創(chuàng)建模塊文件runcrawl.py，代碼如下

# -*- coding: utf-8 -*-

import scrapy
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner

from tmall import TmallSpider
...
spider = TmallSpider(domain="tmall.com")
runner = CrawlerRunner()
runner.crawl(spider)
...
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()

執(zhí)行runcrawl.py文件，輸出結(jié)果：

3，展望

以自定義DOWNLOADER_MIDDLEWARES調(diào)用PhantomJs的方式實(shí)現(xiàn)爬蟲(chóng)后，在阻塞框架的問(wèn)題上糾結(jié)了很長(zhǎng)的時(shí)間，一直在想解決的方式。后續(xù)會(huì)研究一下scrapyjs，splash等其他調(diào)用瀏覽器的方式看是否能有效的解決這個(gè)問(wèn)題。

4，相關(guān)文檔

1， Python即時(shí)網(wǎng)絡(luò)爬蟲(chóng)：API說(shuō)明

5，集搜客GooSeeker開(kāi)源代碼下載源

1， GooSeeker開(kāi)源Python網(wǎng)絡(luò)爬蟲(chóng)GitHub源

6，文檔修改歷史

1，2016-07-04：V1.0

GPU云服務(wù)器云服務(wù)器網(wǎng)頁(yè)信息采集淘寶店鋪數(shù)據(jù)采集內(nèi)容采集器網(wǎng)頁(yè)采集

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/38042.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

z2xy

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

擁抱Kubernetes，為企業(yè)節(jié)約時(shí)間和成本

閱讀 3674·2021-11-16 11:41
GigsGigsCloud：$26/年KVM-1GB/15G SSD/2TB/洛杉磯機(jī)房

閱讀 2879·2021-09-23 11:45
React16.8更改Webpack支持Less文件

閱讀 686·2019-08-30 15:44
右腦編程--左腦是基礎(chǔ)(3)之邏輯篇

閱讀 538·2019-08-30 13:10
前端開(kāi)發(fā)每日一練160303期

閱讀 1960·2019-08-30 12:49
一個(gè)氣泡提示的Javascript控件

閱讀 3525·2019-08-28 17:51
做完小程序項(xiàng)目、老板給我加了6k薪資～

閱讀 1470·2019-08-26 12:20
11、TypeScript 之 Rest parameters

閱讀 697·2019-08-23 17:56

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python網(wǎng)頁(yè)信息采集：使用PhantomJS采集淘寶天貓商品內(nèi)容

2.1，環(huán)境需求

2.2，開(kāi)發(fā)和測(cè)試過(guò)程

相關(guān)文章

**API例子：用Python驅(qū)動(dòng)Firefox采集網(wǎng)頁(yè)數(shù)據(jù)**

***Python爬蟲(chóng)實(shí)戰(zhàn)（4）：豆瓣小組話(huà)題數(shù)據(jù)采集—?jiǎng)討B(tài)網(wǎng)頁(yè)***

**使用php+phantomjs構(gòu)建一只簡(jiǎn)單爬蟲(chóng)的開(kāi)發(fā)思路**

中秋節(jié)，哪種月餅比較好？

Python3 實(shí)現(xiàn)淘女郎照片爬蟲(chóng)

發(fā)表評(píng)論

0條評(píng)論

z2xy

男|高級(jí)講師

TA的文章

擁抱Kubernetes，為企業(yè)節(jié)約時(shí)間和成本

GigsGigsCloud：$26/年KVM-1GB/15G SSD/2TB/洛杉磯機(jī)房

React16.8更改Webpack支持Less文件

右腦編程--左腦是基礎(chǔ)(3)之邏輯篇

前端開(kāi)發(fā)每日一練160303期

一個(gè)氣泡提示的Javascript控件

做完小程序項(xiàng)目、老板給我加了6k薪資～

11、TypeScript 之 Rest parameters

最新活動(dòng)