18、 Python快速開發分布式搜索引擎Scrapy精講—Scrapy啟動文件的配置—xpath表

rubyshen 發布于2019-07-31 11:25 / 1142人閱讀

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料我們自定義一個來作為啟動文件導入執行命令方法給解釋器，添加模塊新路徑將文件所在目錄添加到解釋器執行命令爬蟲文件表達式基本使用設置爬蟲起始域名設置爬蟲起始地址默認爬蟲回調函數，返

【百度云搜索，搜各種資料:http://www.bdyss.cn】 【搜網盤，搜各種資料:http://www.swpan.cn】

我們自定義一個main.py來作為啟動文件

main.py

#!/usr/bin/env?python
#?-*-?coding:utf8?-*-

from?scrapy.cmdline?import?execute??#導入執行scrapy命令方法
import?sys
import?os

sys.path.append(os.path.join(os.getcwd()))?#給Python解釋器，添加模塊新路徑?,將main.py文件所在目錄添加到Python解釋器

execute(["scrapy",?"crawl",?"pach",?"--nolog"])??#執行scrapy命令

爬蟲文件

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request
import?urllib.response
from?lxml?import?etree
import?re

class?PachSpider(scrapy.Spider):
????name?=?"pach"
????allowed_domains?=?["blog.jobbole.com"]
????start_urls?=?["http://blog.jobbole.com/all-posts/"]

????def?parse(self,?response):
????????pass

xpath表達式

1、

2、

3、

基本使用

allowed_domains設置爬蟲起始域名
start_urls設置爬蟲起始url地址
parse(response)默認爬蟲回調函數，response返回的是爬蟲獲取到的html信息對象，里面封裝了一些關于htnl信息的方法和屬性

responsehtml信息對象下的方法和屬性
response.url獲取抓取的rul
response.body獲取網頁內容
response.body_as_unicode()獲取網站內容unicode編碼
xpath()方法，用xpath表達式過濾節點
extract()方法，獲取過濾后的數據，返回列表

#?-*-?coding:?utf-8?-*-
import?scrapy

class?PachSpider(scrapy.Spider):
????name?=?"pach"
????allowed_domains?=?["blog.jobbole.com"]
????start_urls?=?["http://blog.jobbole.com/all-posts/"]

????def?parse(self,?response):
????????leir?=?response.xpath("http://a[@class="archive-title"]/text()").extract()??#獲取指定標題
????????leir2?=?response.xpath("http://a[@class="archive-title"]/@href?").extract()?#獲取指定url

????????print(response.url)????#獲取抓取的rul
????????print(response.body)???#獲取網頁內容
????????print(response.body_as_unicode())??#獲取網站內容unicode編碼

????????for?i?in?leir:
????????????print(i)
????????for?i?in?leir2:
????????????print(i)

?
【轉載自：http://www.lqkweb.com】

GPU云服務器云服務器 scrapy啟動爬蟲 scrapy啟動爬蟲命令 scrapy分布式爬蟲 scrapy分布式爬蟲實例

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/45080.html

23、 Python快速開發分布式搜索引擎Scrapy精講—craw scrapy item lo

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料用命令創建自動爬蟲文件創建爬蟲文件是根據的母版來創建爬蟲文件的查看創建爬蟲文件可用的母版母版說明創建基礎爬蟲文件創建自動爬蟲文件創建爬取數據爬蟲文件創建爬取數據爬蟲文件創建一個基礎母版爬蟲，其他同理【百度云搜索，搜各種資料:http://www.bdyss.cn】【搜網盤，搜各種資料:http://www.swpan.cn】用命令創建自動爬...

QiuyueZhong 2019-07-31 11:27 評論0 收藏0
25、Python快速開發分布式搜索引擎Scrapy精講—Requests請求和Response響應

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料請求請求就是我們在爬蟲文件寫的方法，也就是提交一個請求地址，請求是我們自定義的方法提交一個請求參數字符串類型地址回調函數名稱字符串類型請求方式，如果字典類型的，瀏覽器用戶代理設置字典類型鍵值對，向回調【百度云搜索，搜各種資料:http://www.lqkweb.com】【搜網盤，搜各種資料:http://www.swpan.cn】 Reque...

Shihira 2019-07-31 11:31 評論0 收藏0
22、Python快速開發分布式搜索引擎Scrapy精講—scrapy模擬登陸和知乎倒立文字驗證碼識

【百度云搜索，搜各種資料:http://www.bdyss.cn】【搜網盤，搜各種資料:http://www.swpan.cn】第一步。首先下載，大神者也的倒立文字驗證碼識別程序下載地址：https://github.com/muchrooms/... 注意：此程序依賴以下模塊包　　Keras==2.0.1　　Pillow==3.4.2　　jupyter==1.0.0　　matplotli...

array_huang 2019-07-31 11:27 評論0 收藏0
20、 Python快速開發分布式搜索引擎Scrapy精講—編寫spiders爬蟲文件循環抓取內容

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料編寫爬蟲文件循環抓取內容方法，將指定的地址添加到下載器下載頁面，兩個必須參數，參數頁面處理函數使用時需要方法，是庫下的方法，是自動拼接，如果第二個參數的地址是相對路徑會自動與第一個參數拼接導【百度云搜索，搜各種資料:http://bdy.lqkweb.com】【搜網盤，搜各種資料:http://www.swpan.cn】編寫spiders爬...

CntChen 2019-07-31 11:26 評論0 收藏0
21、 Python快速開發分布式搜索引擎Scrapy精講—爬蟲數據保存

摘要：百度云搜索，搜各種資料搜網盤，搜各種資料注意數據保存的操作都是在文件里操作的將數據保存為文件是一個信號檢測導入圖片下載器模塊定義數據處理類，必須繼承初始化時打開文件為數據處理函數，接收一個，里就是爬蟲最后來的數據對象文章標題是【百度云搜索，搜各種資料:http://www.bdyss.cn】【搜網盤，搜各種資料:http://www.swpan.cn】注意：數據保存的操作都是在p...

Alex 2019-07-31 11:27 評論0 收藏0