scrapy簡單學習3—簡單爬取中文網站（仿寫向）

王陸寬發布于2019-07-31 10:49 / 802人閱讀

摘要：仿寫原創單頁面爬取爬取網站聯合早報網左側的標題，連接，內容定義爬取內容文件編寫保存文件命令備注打開出現亂碼，用記事本轉換成編碼，打開中文可正常。

仿寫原創——單頁面爬取
爬取網站：聯合早報網左側的標題，連接，內容
1.item.py定義爬取內容

import scrapy


class MaiziItem(scrapy.Item):
    title = scrapy.Field()
    link=scrapy.Field()
    desc =scrapy.Field()

2.spider文件編寫

# -*- coding: utf-8 -*-
#encoding=utf-8
import scrapy
from LianHeZaoBao.items import LianhezaobaoItem
reload(__import__("sys")).setdefaultencoding("utf-8") 

class MaimaiSpider(scrapy.Spider):
    name = "lianhe"
    allowed_domains = ["http://www.zaobao.com/news/china//"]
    start_urls = (
        "http://www.zaobao.com/news/china//",
    )

    def parse(self, response):
        
        for li in response.xpath("http://*[@id="l_title"]/ul/li"):
            item = LianhezaobaoItem()
            item["title"] = li.xpath("a[1]/p/text()").extract()
            item["link"]=li.xpath("a[1]/@href").extract()
            item["desc"] = li.xpath("a[2]/p/text()").extract()
            
            yield item

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv
備注：excel打開出現亂碼，用記事本轉換成ANSI編碼，excel打開中文可正常。
4.完成樣式：

云服務器 GPU云服務器深度學習簡單學習深度學習簡單簡單深度學習簡單機器學習

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/44164.html

scrapy簡單學習6—爬取百度貼吧圖片（仿寫向）

摘要：主要是對上一篇文章的簡單仿寫，大家以后想批量下載什么圖片照格式仿寫就好。主要是對上一篇文章的簡單仿寫，大家以后想批量下載什么圖片照格式仿寫就好。由于本人是tfboys的粉絲，所以平常沒事愛逛貼吧欣賞我家三小只的美圖，所以這次就以貼吧[小王的討論樓]為例，批量爬取該樓的圖片[1] itme.py編寫 import scrapy class WangyuantuItem(scrapy...

trigkit4 2019-07-24 18:10 評論0 收藏0
Python爬蟲之Scrapy學習（基礎篇）

摘要：下載器下載器負責獲取頁面數據并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。一旦頁面下載完畢，下載器生成一個該頁面的，并將其通過下載中間件返回方向發送給引擎。作者：xiaoyu微信公眾號：Python數據科學知乎：Python數據分析師在爬蟲的路上，學習scrapy是一個必不可少的環節。也許有好多朋友此時此刻也正在接觸并學習sc...

pkhope 2019-07-31 11:05 評論0 收藏0
Python Scrapy爬蟲框架學習

摘要：組件引擎負責控制數據流在系統中所有組件中流動，并在相應動作發生時觸發事件。下載器下載器負責獲取頁面數據并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。 Scrapy 是用Python實現一個為爬取網站數據、提取結構性數據而編寫的應用框架。一、Scrapy框架簡介 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。 ...

harriszh 2019-07-31 11:00 評論0 收藏0
Scrapy 實戰之爬取妹子圖

摘要：很多人學習爬蟲的第一驅動力就是爬取各大網站的妹子圖片，比如比較有名的。最后我們只需要運行程序，即可執行爬取，程序運行命名如下完整代碼我已上傳到微信公眾號后臺，在癡海公眾號后臺回復即可獲取。本文首發于公眾號癡海，后臺回復即可獲取最新編程資源。 showImg(https://segmentfault.com/img/remote/1460000016780800); 閱讀文本大概需要 1...

Achilles 2019-07-31 11:14 評論0 收藏0