13、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy爬取百度新聞，爬取Ajax動(dòng)態(tài)生成的信息

Blackjun 發(fā)布于2019-07-31 11:24 / 2431人閱讀

摘要：百度云搜索，搜各種資料搜網(wǎng)盤(pán)，搜各種資料爬取百度新聞，爬取動(dòng)態(tài)生成的信息，抓取百度新聞首頁(yè)的新聞地址有多網(wǎng)站，當(dāng)你瀏覽器訪(fǎng)問(wèn)時(shí)看到的信息，在源文件里卻找不到，由得信息還是滾動(dòng)條滾動(dòng)到對(duì)應(yīng)的位置后才顯示信息，那么這種一般都是的動(dòng)態(tài)請(qǐng)求生成的信

【百度云搜索，搜各種資料:http://www.bdyss.cn】

【搜網(wǎng)盤(pán)，搜各種資料:http://www.swpan.cn】

crapy爬取百度新聞，爬取Ajax動(dòng)態(tài)生成的信息，抓取百度新聞首頁(yè)的新聞rul地址

有多網(wǎng)站，當(dāng)你瀏覽器訪(fǎng)問(wèn)時(shí)看到的信息，在html源文件里卻找不到，由得信息還是滾動(dòng)條滾動(dòng)到對(duì)應(yīng)的位置后才顯示信息，那么這種一般都是 js 的?Ajax 動(dòng)態(tài)請(qǐng)求生成的信息

我們以百度新聞為列：

1、分析網(wǎng)站

首先我們?yōu)g覽器打開(kāi)百度新聞，在網(wǎng)頁(yè)中間部分找一條新聞信息

然后查看源碼，看看在源碼里是否有這條新聞，可以看到源文件里沒(méi)有這條信息，這種情況爬蟲(chóng)是無(wú)法爬取到信息的

那么我們就需要抓包分析了，啟動(dòng)抓包軟件和抓包瀏覽器，前后有說(shuō)過(guò)軟件了，就不在說(shuō)了，此時(shí)我們經(jīng)過(guò)抓包看到這條信息是通過(guò)Ajax動(dòng)態(tài)生成的JSON數(shù)據(jù)，也就是說(shuō)，當(dāng)html頁(yè)面加載完成后才生成的，所有我們?cè)谠次募餆o(wú)法找到，當(dāng)然爬蟲(chóng)也找不到

我們首先將這個(gè)JSON數(shù)據(jù)網(wǎng)址拿出來(lái)，到瀏覽器看看，我們需要的數(shù)據(jù)是不是全部在里面，此時(shí)我們看到這次請(qǐng)求里只有 17條信息，顯然我們需要的信息不是完全在里面，還得繼續(xù)看看其他js包

我們將抓包瀏覽器滾動(dòng)條拉到底，以便觸發(fā)所有js請(qǐng)求，然后在繼續(xù)找js包，我們將所有js包都找完了再也沒(méi)看到新聞信息的包了

那信息就不在js包里了，我們回頭在看看其他類(lèi)型的請(qǐng)求，此時(shí)我們看到很多get請(qǐng)求響應(yīng)的是我們需要的新聞信息，說(shuō)明只有第一次那個(gè)Ajax請(qǐng)求返回的JSON數(shù)據(jù)，后面的Ajax請(qǐng)求返回的都是html類(lèi)型的字符串?dāng)?shù)據(jù)，

我們將Ajax請(qǐng)求返回的JSON數(shù)據(jù)的網(wǎng)址和Ajax請(qǐng)求返回html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址，拿來(lái)做一下比較看看是否能找到一定規(guī)律，

此時(shí)我們可以看到，JSON數(shù)據(jù)的網(wǎng)址和html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址是一個(gè)請(qǐng)求地址，

只是請(qǐng)求時(shí)傳遞的參數(shù)不一樣而已，那么說(shuō)明無(wú)論返回的什么類(lèi)型的數(shù)據(jù)，都是在一個(gè)請(qǐng)求地址處理的，只是根據(jù)不同的傳參返回不同類(lèi)型的數(shù)據(jù)而已

http://news.baidu.com/widget?id=LocalNews&ajax=json&t=1501348444467???JSON數(shù)據(jù)的網(wǎng)址

http://news.baidu.com/widget?id=civilnews&t=1501348728134????????html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址

http://news.baidu.com/widget?id=InternationalNews&t=1501348728196????html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址

我們可以將html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址加上JSON數(shù)據(jù)的網(wǎng)址參數(shù)，那是否會(huì)返回JSON數(shù)據(jù)類(lèi)型？試一試，果然成功了

http://news.baidu.com/widget?id=civilnews&ajax=json????????將html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址加上JSON數(shù)據(jù)的網(wǎng)址參數(shù)

http://news.baidu.com/widget?id=InternationalNews&ajax=json????將html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址加上JSON數(shù)據(jù)的網(wǎng)址參數(shù)

這下就好辦了，找到所有的html類(lèi)型的字符串?dāng)?shù)據(jù)網(wǎng)址，按照上面的方法將其轉(zhuǎn)換成JSON數(shù)據(jù)的網(wǎng)址，然后循環(huán)的去訪(fǎng)問(wèn)轉(zhuǎn)換后的JSON數(shù)據(jù)的網(wǎng)址，就可以拿到所有新聞的url地址了

crapy實(shí)現(xiàn)

#?-*-?coding:?utf-8?-*-
import?scrapy
from?scrapy.http?import?Request,FormRequest
import?re
import?json
from?adc.items?import?AdcItem
from?scrapy.selector?import?Selector

class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲(chóng)類(lèi)，必須繼承scrapy.Spider
????name?=?"pach"???????????????????????????????????????????#設(shè)置爬蟲(chóng)名稱(chēng)
????allowed_domains?=?["news.baidu.com"]????????????????????#爬取域名
????start_urls?=?["http://news.baidu.com/widget?id=civilnews&ajax=json"]

????qishiurl?=?[????????????????????#的到所有頁(yè)面id
????????"InternationalNews",
????????"FinanceNews",
????????"EnterNews",
????????"SportNews",
????????"AutoNews",
????????"HouseNews",
????????"InternetNews",
????????"InternetPlusNews",
????????"TechNews",
????????"EduNews",
????????"GameNews",
????????"DiscoveryNews",
????????"HealthNews",
????????"LadyNews",
????????"SocialNews",
????????"MilitaryNews",
????????"PicWall"
????]

????urllieb?=?[]
????for?i?in?range(0,len(qishiurl)):????????????#構(gòu)造出所有idURL
????????kaishi_url?=?"http://news.baidu.com/widget?id="?+?qishiurl[i]?+?"&ajax=json"
????????urllieb.append(kaishi_url)
????#?print(urllieb)

????def?parse(self,?response):??????????????????#選項(xiàng)所有連接
????????for?j?in?range(0,?len(self.urllieb)):
????????????a?=?"正在處理第%s個(gè)欄目:url地址是：%s"?%?(j,?self.urllieb[j])
????????????yield?scrapy.Request(url=self.urllieb[j],?callback=self.enxt)?????#每次循環(huán)到的url?添加爬蟲(chóng)

????def?enxt(self,?response):
????????neir?=?response.body.decode("utf-8")
????????pat2?=?""m_url":"(.*?)""
????????url?=?re.compile(pat2,?re.S).findall(neir)??????#通過(guò)正則獲取爬取頁(yè)面?的URL
????????for?k?in?range(0,len(url)):
????????????zf_url?=?url[k]
????????????url_zf?=?re.sub("/",?"/",?zf_url)
????????????pduan?=?url_zf.find("http://")
????????????if?pduan?==?0:
????????????????print(url_zf)???????????????????????#輸出獲取到的所有url

【轉(zhuǎn)載自：http://www.lqkweb.com】

GPU云服務(wù)器云服務(wù)器爬蟲(chóng)框架scrapy scrapy框架編寫(xiě)爬蟲(chóng) python爬蟲(chóng)框架scrapy scrapy爬取實(shí)例

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/45075.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Blackjun

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

千鋒重慶Java學(xué)習(xí)分享之Java工具類(lèi)整理

閱讀 2082·2021-11-24 09:39
深夜學(xué)姐問(wèn)我在Vue中Echarts柱狀圖如何自定義頂部亮點(diǎn)

閱讀 1536·2021-10-11 10:59
騰訊云輕量首購(gòu)特惠，1核2G5M首年50元，可選上海/北京/成都/廣州機(jī)房

閱讀 2489·2021-09-24 10:28
字節(jié)跳動(dòng)加碼物流業(yè)務(wù)，對(duì)標(biāo)菜鳥(niǎo)網(wǎng)絡(luò)

閱讀 3367·2021-09-08 09:45
阿里云優(yōu)惠券(代金券)在哪領(lǐng)取?如何使用阿里云優(yōu)惠券(代金券)?

閱讀 1263·2021-09-07 10:06
動(dòng)畫(huà)歷程之滾動(dòng)的坑

閱讀 1657·2019-08-30 15:53
利用canvas繪畫(huà)二級(jí)樹(shù)形結(jié)構(gòu)圖

閱讀 2056·2019-08-30 15:53
PHP仿微信多圖片預(yù)覽上傳功能

閱讀 1411·2019-08-30 15:53

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

13、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy爬取百度新聞，爬取Ajax動(dòng)態(tài)生成的信息

【百度云搜索，搜各種資料:http://www.bdyss.cn】

【搜網(wǎng)盤(pán)，搜各種資料:http://www.swpan.cn】

相關(guān)文章

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

scrapy-redis分布式爬蟲(chóng)框架詳解

**11、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy使用**

**10、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy安裝—Scrapy指令**

發(fā)表評(píng)論

0條評(píng)論

Blackjun

男|高級(jí)講師

TA的文章

千鋒重慶Java學(xué)習(xí)分享之Java工具類(lèi)整理

深夜學(xué)姐問(wèn)我在Vue中Echarts柱狀圖如何自定義頂部亮點(diǎn)

騰訊云輕量首購(gòu)特惠，1核2G5M首年50元，可選上海/北京/成都/廣州機(jī)房

字節(jié)跳動(dòng)加碼物流業(yè)務(wù)，對(duì)標(biāo)菜鳥(niǎo)網(wǎng)絡(luò)

阿里云優(yōu)惠券(代金券)在哪領(lǐng)取?如何使用阿里云優(yōu)惠券(代金券)?

動(dòng)畫(huà)歷程之滾動(dòng)的坑

利用canvas繪畫(huà)二級(jí)樹(shù)形結(jié)構(gòu)圖

PHP仿微信多圖片預(yù)覽上傳功能

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

13、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy爬取百度新聞，爬取Ajax動(dòng)態(tài)生成的信息

【百度云搜索，搜各種資料:http://www.bdyss.cn】

【搜網(wǎng)盤(pán)，搜各種資料:http://www.swpan.cn】

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

13、web爬蟲(chóng)講解2—Scrapy框架爬蟲(chóng)—Scrapy爬取百度新聞，爬取Ajax動(dòng)態(tài)生成的信息

【百度云搜索，搜各種資料:http://www.bdyss.cn】