摘要:沒有做具體數(shù)據(jù)處理了直接把他們保存為數(shù)據(jù)了很長很長一段眼花下一篇是如何去保存在數(shù)據(jù)庫中
在上篇中沒有說到啟動如何去啟動,scrapy是使用cmd命令行去啟動的
咱們用scrapy的cmdline去啟動
命名point.py
# 導(dǎo)入cmdline 中的execute用來執(zhí)行cmd命令 from scrapy.cmdline import execute # 執(zhí)行cmd命令參數(shù)為[ scrapy, 爬蟲, 爬蟲名稱] execute(["scrapy", "crawl", "AiquerSpider"])
這個文件放在項目根目錄下
如圖:
如果各位同學(xué)按照我的前面幾篇的步驟寫完的話可以用這個去測試一下(把部分代碼注釋去了),你會發(fā)現(xiàn)有好多神秘的藍色鏈接,哇啊啊啊啊!!!!!我的右手在燃燒!!!!!!!
先在咱們?nèi)ケ4鏀?shù)據(jù)吧!我這幾天寫項目需求寫到崩潰就不去做具體數(shù)據(jù)處理了,直接貼代碼
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don"t forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html import json class AiquerPipeline(object): def __init__(self): # 打開文件 self.file = open("data.json", "w", encoding="utf-8") def process_item(self, item, spider): # 讀取item中的數(shù)據(jù) line = json.dumps(dict(item), ensure_ascii=False) + " " # 寫入文件 self.file.write(line) # 返回item return item # 該方法在spider被開啟時被調(diào)用。 def open_spider(self, spider): pass # 該方法在spider被關(guān)閉時被調(diào)用。 def close_spider(self, spider): pass
在運行這個東西之前是要注冊的,回到settings.py里面找到Configure item pipelines,將下面的注釋去掉就行了,咱們沒有具體需求所以不用改優(yōu)先級別
# Configure item pipelines # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { "AiQuer.pipelines.AiquerPipeline": 300, }
AiQuer.pipelines.AiquerPipeline是為你要注冊的類,右側(cè)的’300’為該Pipeline的優(yōu)先級,范圍1~1000,越小越先執(zhí)行。
沒有做具體數(shù)據(jù)處理了,直接把他們保存為json數(shù)據(jù)了,很長很長一段眼花
下一篇是如何去保存在數(shù)據(jù)庫中
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/41140.html
摘要:快速入門首先,初步要做的就是快速構(gòu)建一個爬蟲。然后把結(jié)果加入到一個隊列中。既然是入門,我們肯定是先關(guān)心我們需要的。 因為公司項目需求,需要做一個爬蟲。所以我一個python小白就被拉去做了爬蟲。花了兩周時間,拼拼湊湊總算趕出來了。所以寫個blog做個記錄。 快速入門 首先,初步要做的就是快速構(gòu)建一個爬蟲。 配置環(huán)境 Mac下安裝 1) 直接從官網(wǎng)下載 python下載官網(wǎng) 2) 是通過...
摘要:如果想先學(xué)習的話推薦看下基礎(chǔ)教學(xué)菜鳥教程這個網(wǎng)站的教程里面的內(nèi)容還是挺不錯的非常適合小白學(xué)習好了廢話不多說開始學(xué)習如何安裝吧安裝我上篇小白爬蟲篇簡介下面的鏈接安裝包后在或者在中輸入命令過程中可能會問你是否安裝其他擴展包選按回車就好了安裝完成 如果想先學(xué)習python的話推薦看下Python基礎(chǔ)教學(xué)|菜鳥教程這個網(wǎng)站的教程,里面的內(nèi)容還是挺不錯的非常適合小白學(xué)習好了廢話不多說開始學(xué)習如何...
摘要:創(chuàng)建爬蟲項目我創(chuàng)建的項目名稱為用打開項目可以看到目錄結(jié)構(gòu)如下根目錄有個是他的配置文件用來存放你的爬蟲文件我就不做解釋了存放集合中間件用來自定義插件在這里咱們用不到這玩意用來存儲數(shù)據(jù)這個還用解釋嗎你可以在中看到這個他們的具體介紹就去看入門到奔 創(chuàng)建爬蟲項目 scrapy startproject (projectName) 我創(chuàng)建的項目名稱為AIQuery scrapy startpro...
摘要:基于的樹狀結(jié)構(gòu),提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點的能力。起初的提出的初衷是將其作為一個通用的介于與間的語法模型。 在你的spiders目錄下創(chuàng)建自己第一個爬蟲項目,我我這兒命名為AiquerSpider.py然后編輯文件 # !/usr/bin/python # -*- coding: UTF-8 -*- import scrapy from scrapy.http import Reque...
閱讀 1882·2021-11-11 16:55
閱讀 2064·2021-10-08 10:13
閱讀 739·2019-08-30 11:01
閱讀 2155·2019-08-29 13:19
閱讀 3277·2019-08-28 18:18
閱讀 2620·2019-08-26 13:26
閱讀 579·2019-08-26 11:40
閱讀 1864·2019-08-23 17:17