Scrapy Shell

HmyBmny 發(fā)布于2019-07-30 15:39 / 2963人閱讀

摘要：如果安裝了，終端將使用替代標(biāo)準(zhǔn)終端。終端與其他相比更為強(qiáng)大，提供智能的自動(dòng)補(bǔ)全，高亮輸出，及其他特性。也提供了一些快捷方式例如或同樣可以生效如之前的案例。當(dāng)然作用不僅僅如此，但是不屬于我們課程重點(diǎn)，不做詳細(xì)介紹。

Scrapy Shell

Scrapy終端是一個(gè)交互終端，我們可以在未啟動(dòng)spider的情況下嘗試及調(diào)試代碼，也可以用來(lái)測(cè)試XPath或CSS表達(dá)式，查看他們的工作方式，方便我們爬取的網(wǎng)頁(yè)中提取的數(shù)據(jù)。

如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標(biāo)準(zhǔn)Python終端)。 IPython 終端與其他相比更為強(qiáng)大，提供智能的自動(dòng)補(bǔ)全，高亮輸出，及其他特性。（推薦安裝IPython）

啟動(dòng)Scrapy Shell

進(jìn)入項(xiàng)目的根目錄，執(zhí)行下列命令來(lái)啟動(dòng)shell:

scrapy shell "http://www.itcast.cn/channel/teacher.shtml"

圖片描述

Scrapy Shell根據(jù)下載的頁(yè)面會(huì)自動(dòng)創(chuàng)建一些方便使用的對(duì)象，例如 Response 對(duì)象，以及 Selector 對(duì)象 (對(duì)HTML及XML內(nèi)容)。

當(dāng)shell載入后，將得到一個(gè)包含response數(shù)據(jù)的本地 response 變量，輸入
response.body將輸出response的包體，輸出 response.headers 可以看到response的包頭。

輸入 response.selector 時(shí)，將獲取到一個(gè)response 初始化的類 Selector 的對(duì)象，此時(shí)可以通過(guò)使用
response.selector.xpath()或response.selector.css() 來(lái)對(duì) response 進(jìn)行查詢。

Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同樣可以生效（如之前的案例）。

Selectors選擇器

Scrapy Selectors 內(nèi)置 XPath 和 CSS Selector 表達(dá)式機(jī)制

Selector有四個(gè)基本的方法，最常用的還是xpath:

xpath(): 傳入xpath表達(dá)式，返回該表達(dá)式所對(duì)應(yīng)的所有節(jié)點(diǎn)的selector list列表

extract(): 序列化該節(jié)點(diǎn)為Unicode字符串并返回list

css(): 傳入CSS表達(dá)式，返回該表達(dá)式所對(duì)應(yīng)的所有節(jié)點(diǎn)的selector list列表，語(yǔ)法同 BeautifulSoup4

re(): 根據(jù)傳入的正則表達(dá)式對(duì)數(shù)據(jù)進(jìn)行提取，返回Unicode字符串list列表

XPath表達(dá)式的例子及對(duì)應(yīng)的含義:

/html/head/title: 選擇文檔中  標(biāo)簽內(nèi)的  元素
/html/head/title/text(): 選擇上面提到的 <title> 元素的文字
//td: 選擇所有的 <td> 元素
//div[@class="mine"]: 選擇所有具有 class="mine" 屬性的 div 元素
</pre>
<b>嘗試Selector</b>
<p>我們用騰訊社招的網(wǎng)站http://hr.tencent.com/positio...舉例：</p>
<pre># 啟動(dòng)
scrapy shell "http://hr.tencent.com/position.php?&start=0#a"

# 返回 xpath選擇器對(duì)象列表
response.xpath("http://title")
[<Selector xpath="http://title" data=u"<title>u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058</title">]

# 使用 extract()方法返回 Unicode字符串列表
response.xpath("http://title").extract()
[u"<title>u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058"]

# 打印列表第一個(gè)元素，終端編碼格式顯示
print response.xpath("http://title").extract()[0]
職位搜索 | 社會(huì)招聘 | Tencent 騰訊招聘

# 返回 xpath選擇器對(duì)象列表
response.xpath("http://title/text()")


# 返回列表第一個(gè)元素的Unicode字符串
response.xpath("http://title/text()")[0].extract()
u"u804cu4f4du641cu7d22 | u793eu4f1au62dbu8058 | Tencent u817eu8bafu62dbu8058"

# 按終端編碼格式顯示
print response.xpath("http://title/text()")[0].extract()
職位搜索 | 社會(huì)招聘 | Tencent 騰訊招聘

response.xpath("http://*[@class="even"]")
職位名稱:

print site[0].xpath("./td[1]/a/text()").extract()[0]
TEG15-運(yùn)營(yíng)開發(fā)工程師（深圳）
職位名稱詳情頁(yè):

print site[0].xpath("./td[1]/a/@href").extract()[0]
position_detail.php?id=20744&keywords=&tid=0&lid=0
職位類別:

print site[0].xpath("./td[2]/text()").extract()[0]
技術(shù)類

以后做數(shù)據(jù)提取的時(shí)候，可以把現(xiàn)在Scrapy Shell中測(cè)試，測(cè)試通過(guò)后再應(yīng)用到代碼中。

當(dāng)然Scrapy Shell作用不僅僅如此，但是不屬于我們課程重點(diǎn)，不做詳細(xì)介紹。

官方文檔：[http://scrapy-chs.readthedocs...
Spider][3]

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/41383.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

HmyBmny

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow搭建卷積神經(jīng)網(wǎng)絡(luò)

閱讀 671·2023-04-25 18:59
虛擬主機(jī)可以做什么-虛擬主機(jī)是什么概念？

閱讀 1211·2021-09-22 16:00
如何遠(yuǎn)程云主機(jī)ip-云主機(jī)怎么遠(yuǎn)程操作？

閱讀 1889·2021-09-22 15:42
什么叫云主機(jī)-云主機(jī)是什么？

閱讀 3594·2021-09-22 15:27
css--下拉菜單

閱讀 1246·2019-08-30 15:54
2019年7月所遇知識(shí)點(diǎn)整理

閱讀 1104·2019-08-30 11:16
關(guān)于sass、scss、less的概念性知識(shí)匯總

閱讀 2445·2019-08-29 16:24
orderBy排序與篩選的例子

閱讀 820·2019-08-29 12:14

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy Shell

相關(guān)文章

scrapy入門教程3：scrapy的shell命令

scrapy入門教程——爬取豆瓣電影Top250！

scrapy提升篇之配置

**10、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令**

Scrapy基本用法

發(fā)表評(píng)論

0條評(píng)論

HmyBmny

男|高級(jí)講師

TA的文章

tensorflow搭建卷積神經(jīng)網(wǎng)絡(luò)

虛擬主機(jī)可以做什么-虛擬主機(jī)是什么概念？

如何遠(yuǎn)程云主機(jī)ip-云主機(jī)怎么遠(yuǎn)程操作？

什么叫云主機(jī)-云主機(jī)是什么？

css--下拉菜單

2019年7月所遇知識(shí)點(diǎn)整理

關(guān)于sass、scss、less的概念性知識(shí)匯總

orderBy排序與篩選的例子

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Scrapy Shell

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！