用php藍天采集器抓取今日頭條ajax的文章內(nèi)容

weizx 發(fā)布于2019-07-01 12:27 / 3275人閱讀

摘要：今日頭條的數(shù)據(jù)都是加載顯示的，按照正常的是抓取不到數(shù)據(jù)的，需要分析出加載出址，我們以為例來采集列表的文章用谷歌瀏覽器打開鏈接，右鍵點擊審查在控制臺切換至并點擊，這樣就可以過濾圖片文件等等不必要的請求只看頁面內(nèi)容的請求由于頁面是加載的，所以將

今日頭條的數(shù)據(jù)都是ajax加載顯示的，按照正常的url是抓取不到數(shù)據(jù)的，需要分析出加載出址，我們以 https://www.toutiao.com/searc... 為例來采集列表的文章

用谷歌瀏覽器打開鏈接，右鍵點擊“審查”在控制臺切換至network并點擊XHR，這樣就可以過濾圖片、文件等等不必要的請求只看頁面內(nèi)容的請求

由于頁面是ajax加載的，所以將頁面拉至最底部，會自動加載出更多文章，這時候控制臺抓取到的鏈接就是我們真正需要的列表頁鏈接：

https://www.toutiao.com/searc...

在藍天采集器中創(chuàng)建一個任務(wù)

創(chuàng)建完畢點擊“采集器設(shè)置”，在“起始頁網(wǎng)址”中填入上面抓取到的鏈接

接下來匹配內(nèi)容頁網(wǎng)址，頭條的文章網(wǎng)址格式是https://www.toutiao.com/group...

點擊“內(nèi)容頁網(wǎng)址”編寫“匹配內(nèi)容網(wǎng)址”規(guī)則：

(?http://toutiao.com/group/d+/)

這是個正則規(guī)則，意思就是把匹配的網(wǎng)址裝進捕獲組content1中，然后在下面填寫[內(nèi)容1] 即對應(yīng)上面的content1 就可獲取到內(nèi)容頁鏈接

可以點擊測試查看是否成功抓取到了鏈接

抓取成功就可以開始獲取內(nèi)容了

點擊“獲取內(nèi)容”在字段列表右邊可以添加默認(rèn)的字段，如標(biāo)題、正文等都可以智能識別，如需精準(zhǔn)還可以自行編輯字段，支持正則、xpath、json等匹配內(nèi)容

我們需要抓取文章的標(biāo)題和正文，由于是ajax顯示的所以要寫規(guī)則匹配出內(nèi)容，分析篇源碼：https://www.toutiao.com/a6358... ，找到文章位置

標(biāo)題規(guī)則：articleInfos:s{stitle:s"[內(nèi)容1]",

正文規(guī)則：contents:s"[內(nèi)容1]",s*groupId

規(guī)則必須保證唯一性，不然會匹配到其他內(nèi)容上去，將規(guī)則添加到字段中，獲取方式選規(guī)則匹配：

規(guī)則編寫完后點擊保存，點擊“測試”看看效果如何

規(guī)則無誤，抓取正常，抓取到的數(shù)據(jù)還可以發(fā)布到cms系統(tǒng)、直接數(shù)據(jù)庫入庫、保存為excel文件等，點擊底部導(dǎo)航條的“發(fā)布設(shè)置”即可，好了今日頭條的采集到這里就結(jié)束了，大家不妨動手試試！

云服務(wù)器 GPU云服務(wù)器 php 今日頭條源碼今日頭條源碼 php 今日頭條和頭條視頻用asp抓取網(wǎng)頁內(nèi)容

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/30744.html

發(fā)表評論

登陸后可評論

0條評論

weizx

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow1.3安裝

閱讀 1794·2023-04-26 02:14
用Python Django搭建簡單一個steam釣魚網(wǎng)站，只要免費領(lǐng)游戲，一釣一個準(zhǔn)

閱讀 3719·2021-11-23 09:51
使用ColorUI組件

閱讀 1381·2021-10-13 09:39
外貿(mào)用wordpress建站怎么樣?wordpress外貿(mào)虛擬主機推薦

閱讀 3963·2021-09-24 10:36
服務(wù)器怎么創(chuàng)建主機-我想在服務(wù)器建立虛擬主機，該怎么做？

閱讀 3009·2021-09-22 15:55
面試遇到的一些題

閱讀 3511·2019-08-30 12:57
面試題總結(jié)

閱讀 2036·2019-08-29 15:30
Vue入門實踐每日一文Webapp

閱讀 1980·2019-08-29 13:19

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

用php藍天采集器抓取今日頭條ajax的文章內(nèi)容

相關(guān)文章

**Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---36、分析Ajax爬取今日頭條街拍美圖**

php使用QueryList輕松采集JavaScript動態(tài)渲染頁面

Laravel 中使用 puppeteer 采集異步加載的網(wǎng)頁內(nèi)容

網(wǎng)站信息采集

**Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---35、 Ajax數(shù)據(jù)爬取**

發(fā)表評論

0條評論

weizx

男|高級講師

TA的文章

tensorflow1.3安裝

用Python Django搭建簡單一個steam釣魚網(wǎng)站，只要免費領(lǐng)游戲，一釣一個準(zhǔn)

使用ColorUI組件

外貿(mào)用wordpress建站怎么樣?wordpress外貿(mào)虛擬主機推薦

服務(wù)器怎么創(chuàng)建主機-我想在服務(wù)器建立虛擬主機，該怎么做？

面試遇到的一些題

面試題總結(jié)

Vue入門實踐每日一文Webapp

最新活動