摘要:寫在前面用寫爬蟲的人很多,的爬蟲框架也很多,諸如和,筆者還是筆記傾向于,本文就用寫一個小爬蟲。本文適用于有一定基礎的,并且對爬蟲有一定了解的開發者。
寫在前面
用python寫爬蟲的人很多,python的爬蟲框架也很多,諸如pyspider 和 scrapy,筆者還是筆記傾向于scrapy,本文就用python寫一個小爬蟲demo。
本文適用于有一定python基礎的,并且對爬蟲有一定了解的開發者。
檢查環境,python的版本為3.6.2,pip為9.0.1
F: echleepython>python --version Python 3.6.2 F: echleepython>pip --version pip 9.0.1 from d:program filespythonpython36-32libsite-packages (python 3.6)
安裝scrapy框架
F: echleepython>pip install scrapy Collecting scrapy Downloading Scrapy-1.4.0-py2.py3-none-any.whl (248kB) 100% |████████████████████████████████| 256kB 188kB/s // 漫長的安裝過程 Successfully installed Twisted-17.9.0 scrapy-1.4.0
如果報錯:
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
請安裝Visual C++ 2015 Build Tools
http://landinghub.visualstudi...
安裝完成
F: echleepython>scrapy version Scrapy 1.4.0創建項目
F: echleepython>scrapy startproject scrapyDemo New Scrapy project "scrapyDemo", using template directory "d:program filespythonpython36-32libsite-packagesscrapy emplatesproject", created in: F: echleepythonscrapyDemo You can start your first spider with: cd scrapyDemo scrapy genspider example example.com
目錄結構
scrapyDemo/ scrapy.cfg # 部署配置文件 scrapyDemo/ # python模塊 __init__.py items.py # 數據容器 pipelines.py # project pipelines file settings.py # 配置文件 spiders/ # Spider類定義了如何爬取某個(或某些)網站 __init__.py
創建執行爬取的類ImoocSpider在 scrapyDemo/spiders中
# -*- coding: utf-8 -*- import scrapy from urllib import parse as urlparse # 慕課網爬取 class ImoocSpider(scrapy.Spider): # spider的名字定義了Scrapy如何定位(并初始化)spider,所以其必須是唯一的 name = "imooc" # URL列表 start_urls = ["http://www.imooc.com/course/list"] # 域名不在列表中的URL不會被爬取。 allowed_domains = ["www.imooc.com"] def parse(self, response): learn_nodes = response.css("a.course-card") for learn_node in learn_nodes : learn_url = learn_node.css("::attr(href)").extract_first() yield scrapy.Request(url=urlparse.urljoin(response.url,learn_url),callback=self.parse_learn) def parse_learn(self, response): title = response.xpath("http://h2[@class="l"]/text()").extract_first() content = response.xpath("http://div[@class="course-brief"]/p/text()").extract_first() url = response.url print ("標題:" + title) print ("地址:" + url)開始爬取
F: echleepythonscrapyDemo>scrapy crawl imooc
如果出現,則缺少win32api庫,選擇相應的版本
下載地址:https://sourceforge.net/proje...
import win32api ModuleNotFoundError: No module named "win32api"大功告成
看到如下輸出,就說明爬取成功啦
F: echleepythonscrapyDemo>scrapy crawl imooc 2017-10-17 14:28:32 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo) …… 2017-10-17 14:28:32 [scrapy.core.engine] INFO: Spider opened 2017-10-17 14:28:32 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2017-10-17 14:28:32 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023 2017-10-17 14:28:32 [scrapy.core.engine] DEBUG: Crawled (200)(referer: None) 2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None) 2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:集成MultiDex項目實戰 地址:http://www.imooc.com/learn/876 2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:阿里D2前端技術論壇——2016初心 地址:http://www.imooc.com/learn/893 2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:Hadoop進階 地址:http://www.imooc.com/learn/890 標題:Javascript實現二叉樹算法 地址:http://www.imooc.com/learn/888 2017-10-17 14:28:33 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:Fragment應用上 地址:http://www.imooc.com/learn/894 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:PHP-面向對象 地址:http://www.imooc.com/learn/887 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:Sketch的基礎實例應用 地址:http://www.imooc.com/learn/900 標題:ElasticSearch入門 地址:http://www.imooc.com/learn/889 標題:使用Google Guice實現依賴注入 地址:http://www.imooc.com/learn/901 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:Docker入門 地址:http://www.imooc.com/learn/867 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:Android圖表繪制之直方圖 地址:http://www.imooc.com/learn/878 2017-10-17 14:28:34 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:UI版式設計 地址:http://www.imooc.com/learn/892 2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:RxJava與RxAndroid基礎入門 地址:http://www.imooc.com/learn/877 標題:iOS開發之Audio特輯 地址:http://www.imooc.com/learn/886 2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:基于Websocket的火拼俄羅斯(基礎) 地址:http://www.imooc.com/learn/861 2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 2017-10-17 14:28:35 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http://www.imooc.com/course/list) 標題:2017AWS 技術峰會——大數據技術專場 地址:http://www.imooc.com/learn/895 標題:基于websocket的火拼俄羅斯(單機版) 地址:http://www.imooc.com/learn/882
原文 https://www.tech1024.cn/origi...
保存數據到mysql數據庫 https://www.tech1024.cn/origi...
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/40948.html
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:坦克大戰上簡介上的坦克大戰相信大家都玩過有逃學玩坦克的可以自己默默的扣一個了我們現在長大了,學習游戲開發了。 寫在前面 上一篇(https://www.tech1024.cn/origi... )說了如何創建項目,并爬去網站內容,下面我們說一下如何保存爬去到的數據 開始爬取 創建Spider,上一篇我們已經創建了ImoocSpider,我們做一下修改,可以連續下一頁爬取。scrapyD...
摘要:用例運行爬蟲命令基本語法是否需要項目存在當然是不需要咯貌似這個命令是不依托一個項目而直接運行一個爬蟲的命令。用例我終于寫完了,喜歡的就收藏推薦一下吧,這樣我就會更有動力寫新的教程了,哇哈哈 0. 基本環境說明 本文截圖及運行環境均在Win8上實現(是的,我放假回家了,家里的機器是win8的沒有辦法),但基本步驟與win 7環境基本相同。(應該把~)ps:我后來換了臺win7的電腦,所...
摘要:所以如果對爬蟲有一定基礎,上手框架是一種好的選擇。缺少包,使用安裝即可缺少包,使用安裝即可上一篇文章網絡爬蟲實戰爬取相關庫的安裝的安裝下一篇文章網絡爬蟲實戰爬蟲框架的安裝 上一篇文章:Python3網絡爬蟲實戰---9、APP爬取相關庫的安裝:Appium的安裝下一篇文章:Python3網絡爬蟲實戰---11、爬蟲框架的安裝:ScrapySplash、ScrapyRedis 我們直接...
閱讀 718·2021-10-14 09:42
閱讀 1972·2021-09-22 15:04
閱讀 1574·2019-08-30 12:44
閱讀 2140·2019-08-29 13:29
閱讀 2734·2019-08-29 12:51
閱讀 548·2019-08-26 18:18
閱讀 702·2019-08-26 13:43
閱讀 2808·2019-08-26 13:38