【python爬蟲學習】python3.7 scrapy 安裝，demo實例，實踐：爬取百度

asoren 發布于2019-07-30 18:36 / 3534人閱讀

摘要：安裝可能的問題問題解決實例教程中文教程文檔第一步創建項目目錄第二步進入創建爬蟲第三步創建存儲容器，復制項目下的重命名為第四步修改提取數據引入數據容器第五步解決百度首頁網站抓取空白問題設置設置用戶代理解決相關解決數據保存亂

pip 安裝 pip install scrapy

可能的問題：
問題/解決：error: Microsoft Visual C++ 14.0 is required.

實例demo教程中文教程文檔
第一步：創建項目目錄

scrapy startproject tutorial

第二步：進入tutorial創建spider爬蟲

scrapy genspider baidu www.baidu.com

第三步：創建存儲容器，復制項目下的items.py重命名為BaiduItems

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BaiduItems(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()
    pass

第四步：修改spiders/baidu.py xpath提取數據

# -*- coding: utf-8 -*-
import scrapy
# 引入數據容器
from tutorial.BaiduItems import BaiduItems

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    allowed_domains = ["www.readingbar.net"]
    start_urls = ["http://www.readingbar.net/"]
    def parse(self, response):
        for sel in response.xpath("http://ul/li"):
            item = BaiduItems()
            item["title"] = sel.xpath("a/text()").extract()
            item["link"] = sel.xpath("a/@href").extract()
            item["desc"] = sel.xpath("text()").extract()
            yield item
        pass

第五步：解決百度首頁網站抓取空白問題,設置setting.py

# 設置用戶代理
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"

# 解決 robots.txt 相關debug
ROBOTSTXT_OBEY = False
# scrapy 解決數據保存亂碼問題
FEED_EXPORT_ENCODING = "utf-8"

最后一步：開始爬取數據命令并保存數據為指定的文件
執行的時候可能報錯：No module named "win32api" 可以下載指定版本安裝

scrapy crawl baidu -o baidu.json

深度爬取百度首頁及導航菜單相關頁內容

# -*- coding: utf-8 -*-
import scrapy

from scrapyProject.BaiduItems import BaiduItems

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    # 由于tab包含其他域名,需要添加域名否則無法爬取
    allowed_domains = [
        "www.baidu.com",
        "v.baidu.com",
        "map.baidu.com",
        "news.baidu.com",
        "tieba.baidu.com",
        "xueshu.baidu.com"
    ]
    start_urls = ["https://www.baidu.com/"]
    def parse(self, response):
        item = BaiduItems()
        item["title"] = response.xpath("http://title/text()").extract()
        yield item
        for sel in response.xpath("http://a[@class="mnav"]"):
            item = BaiduItems()
            item["nav"] = sel.xpath("text()").extract()
            item["href"] = sel.xpath("@href").extract()
            yield item
            # 根據提取的nav地址建立新的請求并執行回調函數
            yield scrapy.Request(item["href"][0],callback=self.parse_newpage)
        pass
    # 深度提取tab網頁標題信息
    def parse_newpage(self, response):
        item = BaiduItems()
        item["title"] = response.xpath("http://title/text()").extract()
        yield item
        pass

繞過登錄進行爬取
a.解決圖片驗證 pytesseract

云服務器 GPU云服務器 scrapy爬取實例 scrapy爬蟲實例 scrapy分布式爬蟲實例 python爬蟲scrapy

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/42720.html

Python3網絡爬蟲實戰---10、爬蟲框架的安裝：PySpider、Scrapy

摘要：所以如果對爬蟲有一定基礎，上手框架是一種好的選擇。缺少包，使用安裝即可缺少包，使用安裝即可上一篇文章網絡爬蟲實戰爬取相關庫的安裝的安裝下一篇文章網絡爬蟲實戰爬蟲框架的安裝上一篇文章：Python3網絡爬蟲實戰---9、APP爬取相關庫的安裝：Appium的安裝下一篇文章：Python3網絡爬蟲實戰---11、爬蟲框架的安裝：ScrapySplash、ScrapyRedis 我們直接...

張憲坤 2019-07-31 10:34 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
python爬蟲入門（一）

摘要：想辦法區分爬蟲程序和正常的用戶。爬蟲是工具性程序，對速度和效率要求較高。生態圈完善，是最大對手。最要命的是爬蟲需要經常修改部分代碼。爬蟲分類通用爬蟲也就是百度搜狐等搜索引擎。原本是為測試來測試網站的，后來成了爬蟲工程師最喜愛的工具。一、爬蟲的基本知識： 1. 什么是爬蟲爬蟲的英文翻譯為spider或者crawder,意為蜘蛛或者爬行者，從字面意思我們可以體會到：爬蟲就是把自己當做蜘...

lentrue 2019-07-30 17:06 評論0 收藏0

發表評論

登陸后可評論

0條評論

asoren

男|高級講師

我要關注我要私信

TA的文章

#11.11#搬瓦工VPS全場8.9折優惠，$44.49/年起，年付低至7.5折，續費不漲價

閱讀 3118·2021-11-15 18:14
阿里云服務器1M帶寬實際下載速度是多少?(帶寬和下載速度的關系)

閱讀 1773·2021-09-22 10:51
一文帶你斬殺Python之Numpy??Pandas全部操作【全網最詳細】???

閱讀 3283·2021-09-09 09:34
動態內存管理（下）

閱讀 3505·2021-09-06 15:02
hostyun：美國三網廉價版cn2 gia vps晚高峰簡單測評，看看數據和性能~

閱讀 1013·2021-09-01 11:40
CSS—總結常用垂直居中方法

閱讀 3186·2019-08-30 13:58
前端開發工具集 eutils

閱讀 2523·2019-08-30 11:04
【20160119】貌美的bootstrap模板和git安裝

閱讀 1081·2019-08-28 18:31

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

【python爬蟲學習】python3.7 scrapy 安裝，demo實例，實踐：爬取百度

相關文章

***Python3網絡爬蟲實戰---10、爬蟲框架的安裝：PySpider、Scrapy***

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

零基礎如何學爬蟲技術

python爬蟲入門（一）

發表評論

0條評論

asoren

男|高級講師

TA的文章

#11.11#搬瓦工VPS全場8.9折優惠，$44.49/年起，年付低至7.5折，續費不漲價

阿里云服務器1M帶寬實際下載速度是多少?(帶寬和下載速度的關系)

一文帶你斬殺Python之Numpy??Pandas全部操作【全網最詳細】???

動態內存管理（下）

hostyun：美國三網廉價版cn2 gia vps晚高峰簡單測評，看看數據和性能~

CSS—總結常用垂直居中方法

前端開發工具集 eutils

【20160119】貌美的bootstrap模板和git安裝

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

【python爬蟲學習 】python3.7 scrapy 安裝，demo實例，實踐：爬取百度

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

【python爬蟲學習】python3.7 scrapy 安裝，demo實例，實踐：爬取百度