使用Scrapy框架爬取網頁并保存到Mysql

89542767 發布于2022-11-05 11:24 / 558人閱讀

　　小編寫這篇文章的主要目的，主要是用來給大家做出一個解答，解答關于Scrapy框架的事情，主要是使用Scrapy框架，爬取網頁，然后保存到一個專業數據庫中，這個數據庫就是Mysql，那么，其具體要怎么實現呢？下面就給大家詳細的解答。

　　大家好，這一期阿彬給大家分享Scrapy爬蟲框架與本地Mysql的使用。今天阿彬爬取的網頁是虎撲體育網。

　　（1）打開虎撲體育網，分析一下網頁的數據，使用xpath定位元素。

　　（2）在第一部分析網頁之后就開始創建一個scrapy爬蟲工程，在終端執行以下命令：

　　“scrapy startproject huty（注：‘hpty’是爬蟲項目名稱）”,得到了下圖所示的工程包：

　　（3）進入到“hpty/hpty/spiders”目錄下創建一個爬蟲文件叫‘“sww”，在終端執行以下命令：“scrapy genspider sww”（4）在前兩步做好之后，對整個爬蟲工程相關的爬蟲文件進行編輯。1、setting文件的編輯：

　　把君子協議原本是True改為False。

　　再把這行原本被注釋掉的代碼把它打開。

　　2、對item文件進行編輯，這個文件是用來定義數據類型，代碼如下：

　　#Define here the models for your scraped items
　　#
　　#See documentation in:
　　#https://docs.scrapy.org/en/latest/topics/items.html
　　import scrapy
　　class HptyItem(scrapy.Item):
　　#define the fields for your item here like:
　　#name=scrapy.Field()
　　球員=scrapy.Field()
　　球隊=scrapy.Field()
　　排名=scrapy.Field()
　　場均得分=scrapy.Field()
　　命中率=scrapy.Field()
　　三分命中率=scrapy.Field()
　　罰球命中率=scrapy.Field()

　　3、對最重要的爬蟲文件進行編輯（即“hpty”文件），代碼如下：

　　import scrapy
　　from..items import HptyItem
　　class SwwSpider(scrapy.Spider):
　　name='sww'
　　allowed_domains=['https://nba.hupu.com/stats/players']
　　start_urls=['https://nba.hupu.com/stats/players']
　　def parse(self,response):
　　whh=response.xpath('//tbody/tr[not(class)]')
　　for i in whh:
　　排名=i.xpath(
　　'./td[1]/text()').extract()#排名
　　球員=i.xpath(
　　'./td[2]/a/text()').extract()#球員
　　球隊=i.xpath(
　　'./td[3]/a/text()').extract()#球隊
　　場均得分=i.xpath(
　　'./td[4]/text()').extract()#得分
　　命中率=i.xpath(
　　'./td[6]/text()').extract()#命中率
　　三分命中率=i.xpath(
　　'./td[8]/text()').extract()#三分命中率
　　罰球命中率=i.xpath(
　　'./td[10]/text()').extract()#罰球命中率
　　data=HptyItem(球員=球員,球隊=球隊,排名=排名,場均得分=場均得分,命中率=命中率,三分命中率=三分命中率,罰球命中率=罰球命中率)
　　yield data

　　4、對pipelines文件進行編輯，代碼如下：

　　#Define your item pipelines here
　　#
　　#Don't forget to add your pipeline to the ITEM_PIPELINES setting
　　#See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html
　　#useful for handling different item types with a single interface
　　from cursor import cursor
　　from itemadapter import ItemAdapter
　　import pymysql
　　class HptyPipeline:
　　def process_item(self,item,spider):
　　db=pymysql.connect(host="Localhost",user="root",passwd="root",db="sww",charset="utf8")
　　cursor=db.cursor()
　　球員=item["球員"][0]
　　球隊=item["球隊"][0]
　　排名=item["排名"][0]
　　場均得分=item["場均得分"][0]
　　命中率=item["命中率"]
　　三分命中率=item["三分命中率"][0]
　　罰球命中率=item["罰球命中率"][0]
　　#三分命中率=item["三分命中率"][0].strip('%')
　　#罰球命中率=item["罰球命中率"][0].strip('%')
　　cursor.execute(
　　'INSERT INTO nba(球員,球隊,排名,場均得分,命中率,三分命中率,罰球命中率)VALUES(%s,%s,%s,%s,%s,%s,%s)',
　　(球員,球隊,排名,場均得分,命中率,三分命中率,罰球命中率)
　　)
　　#對事務操作進行提交
　　db.commit()
　　#關閉游標
　　cursor.close()
　　db.close()
　　return item

　　（5）在scrapy框架設計好了之后，先到mysql創建一個名為“sww”的數據庫，在該數據庫下創建名為“nba”的數據表，代碼如下：1、創建數據庫

　　create database sww;

　　2、創建數據表

　　create table nba(球員char(20),球隊char(10),排名char(10),場均得分char(25),命中率char(20),三分命中率char(20),罰球命中率char(20));

　　3、通過創建數據庫和數據表可以看到該表的結構：

　　（6）在mysql創建數據表之后，再次回到終端，輸入如下命令：“scrapy crawl sww”，得到的結果

　　到此為止，這篇文章就為大家解答完畢了，希望可以給大家帶來更多的幫助。

GPU云服務器云服務器保存網頁到本地 scrapy爬取實例保存到MySQL數據庫并保存

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/128244.html

從零開始寫爬蟲

摘要：幾個朋友對爬蟲很感興趣，他們也都是開發人員，一個開發兩個開發，都沒有過項目開發經驗，正好其中一個最近要爬一個網店的產品信息，所以希望我能拿這網站當寫一個爬蟲來給他們參考學習。我們就在這個文件里開發爬蟲的相關邏輯。幾個朋友對爬蟲很感興趣，他們也都是開發人員，一個PHP開發兩個JAVA開發，都沒有過python項目開發經驗，正好其中一個最近要爬一個網店的產品信息，所以希望我能拿這網站當d...

wwq0327 2019-07-30 14:36 評論0 收藏0
scrapy-redis分布式爬蟲框架詳解

摘要：分布式爬蟲框架詳解隨著互聯網技術的發展與應用的普及，網絡作為信息的載體，已經成為社會大眾參與社會生活的一種重要信息渠道。下載器中間件位于引擎和下載器之間的框架，主要是處理引擎與下載器之間的請求及響應。 scrapy-redis分布式爬蟲框架詳解隨著互聯網技術的發展與應用的普及，網絡作為信息的載體，已經成為社會大眾參與社會生活的一種重要信息渠道。由于互聯網是開放的，每個人都可以在網絡上...

myeveryheart 2019-07-30 16:09 評論0 收藏0
爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

defcon 2019-07-30 17:07 評論0 收藏0
爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

Invoker 2019-08-30 15:54 評論0 收藏0