国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

立即前往

Python scrapy框架用21行代碼寫出一個爬蟲

CODING 發(fā)布于2019-07-25 11:47 / 2751人閱讀

摘要：開發(fā)環(huán)境目前最新開發(fā)框架目前最新目標(biāo)爬取線報(bào)網(wǎng)站并把內(nèi)容保存到里頁面分析根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為這個里下面放出的代碼月日月日淘金幣淘里程領(lǐng)取京東簽到月日淘金幣淘里程領(lǐng)取京東簽到已結(jié)束發(fā)布日期分類虛擬幣瀏覽淘金幣一

開發(fā)環(huán)境:Pycharm 2017.1(目前最新)
開發(fā)框架: Scrapy 1.3.3(目前最新)

目標(biāo)

爬取線報(bào)網(wǎng)站,并把內(nèi)容保存到items.json里

頁面分析

根據(jù)上圖我們可以發(fā)現(xiàn)內(nèi)容都在類為post這個div里
下面放出post的代碼



04月07日

4月7日 淘金幣淘里程領(lǐng)取京東簽到已結(jié)束
發(fā)布日期: 2017-04-07 | 分類: 虛擬幣   |  瀏覽:125177
淘金幣一鍵領(lǐng)取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機(jī)端30金幣】 http://h5.m.taobao...

實(shí)現(xiàn)方法

1.定義items

class DemoItem(scrapy.Item):
    id = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()
    content = scrapy.Field()

2.新建一個爬蟲名為test

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request

class TestSpider(scrapy.Spider):
    #定義爬蟲的名字和需要爬取的網(wǎng)址
    name = "test"
    allowed_domains = ["www.abckg.com"]
    start_urls = ["http://www.abckg.com/"]

    def parse(self, response):
        for resp in response.css(".post"):
            #實(shí)例化item
            item = DemoItem()
            #把獲取到的內(nèi)容保存到item內(nèi)
            item["href"] = resp.css("h2 a::attr(href)").extract()
            item["title"] = resp.css("h2 a::text").extract()
            item["content"] = resp.css(".intro p::text").extract()
            yield item
            
        #下面是多頁面的爬取方法
        urls = response.css(".pageinfo a::attr(href)").extract()
        for url in urls:
            yield Request(url, callback=self.parse)
        categorys = response.css(".menu li a::attr(href)").extract()
        for ct in categorys:
            yield Request(ct, callback=self.parse)

3.修改settings.py,添加以下代碼

FEED_EXPORT_ENCODING = "utf-8"

運(yùn)行

打開cmd輸入

scrapy crawl test -o items.json

已知bug

如果多次運(yùn)行該爬蟲,不會覆蓋原有的內(nèi)容,而是追加數(shù)據(jù)(好像是scrapy的bug)

可拓展內(nèi)容

1.定時運(yùn)行爬蟲,當(dāng)檢查到網(wǎng)站更新時獲取新數(shù)據(jù)并發(fā)郵件通知
2.檢測數(shù)據(jù)是否重復(fù)

GPU云服務(wù)器云服務(wù)器 python爬蟲框架scrapy 爬蟲框架scrapy scrapy框架編寫爬蟲用jsp寫出一個日歷

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/38611.html

發(fā)表評論

登陸后可評論

0條評論

CODING

男|高級講師

我要關(guān)注我要私信

TA的文章

tab 切換下劃線跟隨實(shí)現(xiàn)

閱讀 898·2019-08-30 15:54
ie 9 背景透明的空白元素?zé)o法點(diǎn)擊

閱讀 1466·2019-08-30 15:54
小程序開發(fā)中的那些小坑

閱讀 2400·2019-08-29 16:25
文字在線中間，CSS巧妙實(shí)現(xiàn)分隔線的幾種方法

閱讀 1292·2019-08-29 15:24
前端實(shí)例練習(xí) - 模態(tài)框

閱讀 749·2019-08-29 12:11
TypeScript 初識 - 基礎(chǔ)

閱讀 2506·2019-08-26 10:43
【Vue原理】Compile - 源碼版之從新建實(shí)例到 compile結(jié)束的主要流程

閱讀 1227·2019-08-26 10:40
前端基礎(chǔ)之(1) - js篇

閱讀 466·2019-08-23 16:24

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python scrapy框架用21行代碼寫出一個爬蟲

4月7日淘金幣淘里程領(lǐng)取京東簽到已結(jié)束

發(fā)布日期: 2017-04-07 | 分類: 虛擬幣 | 瀏覽:125177

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python爬蟲框架Scrapy實(shí)戰(zhàn) - 抓取BOSS直聘招聘信息

Python爬蟲框架Scrapy實(shí)戰(zhàn) - 抓取BOSS直聘招聘信息

***Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---10、爬蟲框架的安裝：PySpider、Scrapy***

Python 爬蟲面試題 170 道：2019 版

發(fā)表評論

0條評論

CODING

男|高級講師

TA的文章

tab 切換下劃線跟隨實(shí)現(xiàn)

ie 9 背景透明的空白元素?zé)o法點(diǎn)擊

小程序開發(fā)中的那些小坑

文字在線中間，CSS巧妙實(shí)現(xiàn)分隔線的幾種方法

前端實(shí)例練習(xí) - 模態(tài)框

TypeScript 初識 - 基礎(chǔ)

【Vue原理】Compile - 源碼版之從新建實(shí)例到 compile結(jié)束的主要流程

前端基礎(chǔ)之(1) - js篇

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python scrapy框架用21行代碼寫出一個爬蟲

4月7日 淘金幣淘里程領(lǐng)取京東簽到已結(jié)束

發(fā)布日期: 2017-04-07 | 分類: 虛擬幣 | 瀏覽:125177

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

4月7日淘金幣淘里程領(lǐng)取京東簽到已結(jié)束