scrapy下調試單個函數的方法

yintaolaowanzi 發布于2019-07-24 18:18 / 3547人閱讀

摘要：進行抓取任務時很苦惱的一點在于為了調試某個第三四層以上的跳轉鏈接需要等待將前面的鏈接都跑一遍才能確定某個頁面的函數是否正確的命令行參數就是為了解決這一問題官網的描述意思就是網址可選參數官網給出的例子我的實踐之路開始運行時結果總是沒有打印出任

進行抓取任務時很苦惱的一點在于為了調試某個第三,四層以上的跳轉鏈接需要等待將前面的鏈接都跑一遍,才能確定某個頁面的parse函數是否正確,scrapy的命令行參數 parse就是為了解決這一問題.

官網的描述

Syntax: scrapy parse  [options]
意思就是 scrpy parse 網址 可選參數

官網給出的例子 $ scrapy shell       http://www.example.com/some/page.html

我的實踐之路

開始運行時結果總是沒有打印出任何log來,于是將原本0.25的scrapy升級到1.0
這時再輸入

scrapy parse http://www.douban.com -c group_parse

報了這樣的錯誤

ERROR: Unable to find spider for: http://www.douban.com

還有可能是這樣的

Traceback (most recent call last):
  File "/usr/local/bin/scrapy", line 11, in 
    sys.exit(execute())
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 143, in execute
    _run_print_help(parser, _run_command, cmd, args, opts)
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 89, in _run_print_help
    func(*a, **kw)
  File "/Library/Python/2.7/site-packages/scrapy/cmdline.py", line 150, in _run_command
    cmd.run(args, opts)
  File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 220, in run
    self.set_spidercls(url, opts)
  File "/Library/Python/2.7/site-packages/scrapy/commands/parse.py", line 147, in set_spidercls
    self.spidercls.start_requests = _start_requests
AttributeError: "NoneType" object has no attribute "start_requests"

好吧,自動找不到我們就顯示指定下爬蟲的名字
就是在繼承自spider類里定義的那個name里的值

class douban(Spider):
    name = "douban_spider"

ok 問題解決

云服務器 GPU云服務器 js匿名函數內的方法函數計算調試 linux下調試器 webrtc庫在windows下調試

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/37678.html

爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

defcon 2019-07-30 17:07 評論0 收藏0
爬蟲入門

摘要：通用網絡爬蟲通用網絡爬蟲又稱全網爬蟲，爬取對象從一些種子擴充到整個。為提高工作效率，通用網絡爬蟲會采取一定的爬取策略。介紹是一個國人編寫的強大的網絡爬蟲系統并帶有強大的。爬蟲簡單的說網絡爬蟲（Web crawler）也叫做網絡鏟（Web scraper）、網絡蜘蛛（Web spider），其行為一般是先爬到對應的網頁上，再把需要的信息鏟下來。分類網絡爬蟲按照系統結構和實現技術，...

Invoker 2019-08-30 15:54 評論0 收藏0
SCrapy爬蟲大戰京東商城

摘要：爬蟲大戰京東商城引言上一篇已經講過怎樣獲取鏈接，怎樣獲得參數了，詳情請看爬取京東商城普通篇代碼詳解首先應該構造請求，這里使用這個方法默認調用的是構造請求，如果要改變默認的請求，那么必須重載該方法，這個方法的返回值必須是一個可迭代的對象，一般 SCrapy爬蟲大戰京東商城引言上一篇已經講過怎樣獲取鏈接，怎樣獲得參數了，詳情請看python爬取京東商城普通篇代碼詳解首先應該構造請求...

noONE 2019-07-25 11:46 評論0 收藏0
scrapy入門教程3：scrapy的shell命令

摘要：用例運行爬蟲命令基本語法是否需要項目存在當然是不需要咯貌似這個命令是不依托一個項目而直接運行一個爬蟲的命令。用例我終于寫完了，喜歡的就收藏推薦一下吧，這樣我就會更有動力寫新的教程了，哇哈哈 0. 基本環境說明本文截圖及運行環境均在Win8上實現（是的，我放假回家了，家里的機器是win8的沒有辦法），但基本步驟與win 7環境基本相同。（應該把~）ps:我后來換了臺win7的電腦，所...

zhongmeizhi 2019-07-24 18:07 評論0 收藏0
從零開始的Python爬蟲速成指南

摘要：內容如下是我們準備爬的初始頁這個是解析函數，如果不特別指明的話，抓回來的頁面會由這個函數進行解析。爬取多個頁面的原理相同，注意解析翻頁的地址設定終止條件指定好對應的頁面解析函數即可。后面的數字表示的是優先級。指明每兩個請求之間的間隔。序本文主要內容：以最短的時間寫一個最簡單的爬蟲，可以抓取論壇的帖子標題和帖子內容。本文受眾：沒寫過爬蟲的萌新。入門 0.準備工作需要準備的東西：...

gotham 2019-07-25 11:21 評論0 收藏0