国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

立即前往

Scrapy爬取豆瓣讀書全站

CoderStudy 發(fā)布于2019-07-25 11:42 / 527人閱讀

Scrapy爬取豆瓣讀書全站 分析網(wǎng)頁

首先打開豆瓣讀書中的分類瀏覽，可以看到其中有很多的分類

豆瓣應(yīng)該是一個比較好爬的網(wǎng)站，所有的數(shù)據(jù)都不是ajax加載的，我們打開谷歌的F12或者是火狐的FireBug可以很輕松的找到每一個分類的鏈接

這里我們使用scrapy中的一個linkextractors庫,這個庫的作用是會根據(jù)提供的限制，自動爬取和深入每一個頁面并且提取需要的鏈接，如果想要找到每一個分類的url,只需Rule(LinkExtractor(allow="/tag/",restrict_xpaths="http://div[@class="article"]"),follow=True),這里的allow是一個正則表達(dá)式，用來篩選分類url,restrict_xpaths是限制在哪個結(jié)構(gòu)中篩選url,這里限制的是在
這個盒模型中，follow表示是否深入，這里當(dāng)然是要深入,這里就能得到每一個分類url了，自己可以在回調(diào)函數(shù)中測試下，輸入所得的url,可以使用respose.url
得到所有的分類url，就可以繼續(xù)深入到每一步作品所在的頁面了，如下圖!

但是我們需要不止是這一頁，我們要爬的時全站，因此這里必須實(shí)現(xiàn)翻頁，我們可以看到頁面底部清楚的寫著下一頁，我們通過解析頁面同樣可以得到url,如下圖所示

可以看到所有的url的規(guī)則，我們就可以用正則表達(dá)式限制，以獲取我們的需要，我們可以寫出翻頁的代碼

Rule(LinkExtractor(allow="?start=d+&type=",restrict_xpaths="http://div[@class="pa>ginator"]"),follow=True),

最后一步就是打開每一部書的網(wǎng)頁得到所需的信息了，我們就可以通過這里通過解析網(wǎng)頁還是可以很清楚的知道url,這里就不再詳細(xì)的說怎么解析了，這里可以看到所有的url都在li標(biāo)簽中，如下圖

我們打開li標(biāo)簽可以很清楚的看大url的規(guī)律，因此這里還是用到上面說的庫解析深入，連同上面的代碼如下

Rule(LinkExtractor(allow="/tag/",restrict_xpaths="/ /div[@class="article"]"),follow=True),#第一步
Rule(LinkExtractor(allow="?start=d+&type=",restrict_xpaths="http://div[@class="pa>ginator"]"),follow=True),  #第二步翻翻頁
Rule(LinkExtractor(allow="/subject/d+/$",restrict_>xpaths="http://ul[@class="subject-list"]"),callback="parse_item")#得到所需網(wǎng)頁的url

到了這里總算是大功告成了，下面就需要解析自己的所需要的信息了,這里附上網(wǎng)頁

下面就是寫自己解析代碼了，這里就不需要詳細(xì)的說了，詳細(xì)內(nèi)容請看源碼,值得注意的是爬取的網(wǎng)頁速度不要太快，豆瓣會禁IP的，這里可以采用一些反爬蟲措施,如請求頭的更換，ip地址的更換，下一篇會詳細(xì)解說。

參考文檔：

scrapy中文文檔

最后附上本人的github地址,不要忘了給個star哦

本人博客地址

GPU云服務(wù)器云服務(wù)器 scrapy爬取實(shí)例讀書計(jì)劃讀書筆記多讀書

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/38558.html

發(fā)表評論

登陸后可評論

0條評論

CoderStudy

男|高級講師

我要關(guān)注我要私信

TA的文章

（補(bǔ)貨）HostYun：洛杉磯Ceranetworks機(jī)房AMD YES系列VPS，美國原生IP，去

閱讀 1270·2021-10-18 13:32
ABD — android debug bridge 簡略介紹

閱讀 2344·2021-09-24 09:47
小米回應(yīng)立陶宛：遵守歐盟通用數(shù)據(jù)保護(hù)條例尊重用戶合法權(quán)益

閱讀 1331·2021-09-23 11:22
【CSS基礎(chǔ)】Flex彈性布局

閱讀 2469·2019-08-30 14:06
HTML/CSS基礎(chǔ)知識總結(jié)

閱讀 576·2019-08-30 12:48
css權(quán)重與常見布局（1）

閱讀 2004·2019-08-30 11:03
Vue.js 渲染簡寫樣式存在的問題

閱讀 541·2019-08-29 17:09
前端小知識--為什么你寫的height:100%不起作用？

閱讀 2469·2019-08-29 14:10

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy爬取豆瓣讀書全站

相關(guān)文章

23個Python爬蟲開源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等

零基礎(chǔ)如何學(xué)爬蟲技術(shù)

Scrapy學(xué)習(xí)（三）爬取豆瓣圖書信息

scrapy入門教程——爬取豆瓣電影Top250！

scrapy爬取豆瓣Top250電影

發(fā)表評論

0條評論

CoderStudy

男|高級講師

TA的文章

（補(bǔ)貨）HostYun：洛杉磯Ceranetworks機(jī)房AMD YES系列VPS，美國原生IP，去

ABD — android debug bridge 簡略介紹

小米回應(yīng)立陶宛：遵守歐盟通用數(shù)據(jù)保護(hù)條例尊重用戶合法權(quán)益

【CSS基礎(chǔ)】Flex彈性布局

HTML/CSS基礎(chǔ)知識總結(jié)

css權(quán)重與常見布局（1）

Vue.js 渲染簡寫樣式存在的問題

前端小知識--為什么你寫的height:100%不起作用？

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Scrapy爬取豆瓣讀書全站

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！