摘要:今日頭條的數(shù)據(jù)都是加載顯示的,按照正常的是抓取不到數(shù)據(jù)的,需要分析出加載出址,我們以為例來采集列表的文章用谷歌瀏覽器打開鏈接,右鍵點擊審查在控制臺切換至并點擊,這樣就可以過濾圖片文件等等不必要的請求只看頁面內(nèi)容的請求由于頁面是加載的,所以將
今日頭條的數(shù)據(jù)都是ajax加載顯示的,按照正常的url是抓取不到數(shù)據(jù)的,需要分析出加載出址,我們以 https://www.toutiao.com/searc... 為例來采集列表的文章
用谷歌瀏覽器打開鏈接,右鍵點擊“審查”在控制臺切換至network并點擊XHR,這樣就可以過濾圖片、文件等等不必要的請求只看頁面內(nèi)容的請求
由于頁面是ajax加載的,所以將頁面拉至最底部,會自動加載出更多文章,這時候控制臺抓取到的鏈接就是我們真正需要的列表頁鏈接:
https://www.toutiao.com/searc...
在藍天采集器中創(chuàng)建一個任務(wù)
創(chuàng)建完畢點擊“采集器設(shè)置”,在“起始頁網(wǎng)址”中填入上面抓取到的鏈接
接下來匹配內(nèi)容頁網(wǎng)址,頭條的文章網(wǎng)址格式是https://www.toutiao.com/group...
點擊“內(nèi)容頁網(wǎng)址”編寫“匹配內(nèi)容網(wǎng)址”規(guī)則:
(?
這是個正則規(guī)則,意思就是把匹配的網(wǎng)址裝進捕獲組content1中,然后在下面填寫[內(nèi)容1] 即對應(yīng)上面的content1 就可獲取到內(nèi)容頁鏈接
可以點擊測試查看是否成功抓取到了鏈接
抓取成功就可以開始獲取內(nèi)容了
點擊“獲取內(nèi)容”在字段列表右邊可以添加默認(rèn)的字段,如標(biāo)題、正文等都可以智能識別,如需精準(zhǔn)還可以自行編輯字段,支持正則、xpath、json等匹配內(nèi)容
我們需要抓取文章的標(biāo)題和正文,由于是ajax顯示的所以要寫規(guī)則匹配出內(nèi)容,分析篇源碼:https://www.toutiao.com/a6358... ,找到文章位置
標(biāo)題規(guī)則:articleInfos:s{stitle:s"[內(nèi)容1]",
正文規(guī)則:contents:s"[內(nèi)容1]",s*groupId
規(guī)則必須保證唯一性,不然會匹配到其他內(nèi)容上去,將規(guī)則添加到字段中,獲取方式選規(guī)則匹配:
規(guī)則編寫完后點擊保存,點擊“測試”看看效果如何
規(guī)則無誤,抓取正常,抓取到的數(shù)據(jù)還可以發(fā)布到cms系統(tǒng)、直接數(shù)據(jù)庫入庫、保存為excel文件等,點擊底部導(dǎo)航條的“發(fā)布設(shè)置”即可,好了今日頭條的采集到這里就結(jié)束了,大家不妨動手試試!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/30744.html
摘要:上一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)數(shù)據(jù)爬取下一篇文章網(wǎng)絡(luò)爬蟲實戰(zhàn)動態(tài)渲染頁面抓取本節(jié)我們以今日頭條為例來嘗試通過分析請求來抓取網(wǎng)頁數(shù)據(jù)的方法,我們這次要抓取的目標(biāo)是今日頭條的街拍美圖,抓取完成之后將每組圖片分文件夾下載到本地保存下來。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---35、 Ajax數(shù)據(jù)爬取下一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---37、動態(tài)渲染頁面抓取:Selenium 本節(jié)我們...
摘要:使用的方式來做采集,擁有豐富的插件。下面來演示使用插件抓取動態(tài)創(chuàng)建的頁面內(nèi)容。插件使用瀏覽器打開連接使用以采集今日頭條手機版為例,今日頭條手機版基于框架,內(nèi)容是純動態(tài)渲染出來的。 QueryList使用jQuery的方式來做采集,擁有豐富的插件。 下面來演示QueryList使用PhantomJS插件抓取JS動態(tài)創(chuàng)建的頁面內(nèi)容。 安裝 使用Composer安裝: 安裝QueryList...
摘要:采集網(wǎng)頁內(nèi)容是一項很常見的需求,比較傳統(tǒng)的靜態(tài)頁面,就能搞定。代碼中使用了一個方法,是為了讓內(nèi)容加載完成后再進行截圖,簡單粗暴,可能不是最好的解決辦法。總結(jié)被應(yīng)用于測試采集等場景,是一個非常有力的工具。 showImg(https://segmentfault.com/img/remote/1460000014522692?w=640&h=360); 采集網(wǎng)頁內(nèi)容是一項很常見的需求,比...
摘要:網(wǎng)站信息采集在編寫爬蟲之前可能需要先了解和搜集網(wǎng)站信息協(xié)議也稱為爬蟲協(xié)議機器人協(xié)議等的全稱是網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn),網(wǎng)站通過協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。 網(wǎng)站信息采集 在編寫爬蟲之前可能需要先了解和搜集網(wǎng)站信息 robots.txt Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)(Robots Exclusion Protocol),網(wǎng)站通過...
摘要:所以說,我們所看到的微博頁面的真實數(shù)據(jù)并不是最原始的頁面返回的,而是后來執(zhí)行后再次向后臺發(fā)送了請求,拿到數(shù)據(jù)后再進一步渲染出來的。結(jié)果提取仍然是拿微博為例,我們接下來用來模擬這些請求,把馬云發(fā)過的微博爬取下來。 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---34、數(shù)據(jù)存儲:非關(guān)系型數(shù)據(jù)庫存儲:Redis下一篇文章:Python3網(wǎng)絡(luò)爬蟲實戰(zhàn)---36、分析Ajax爬取今日頭條街拍美圖 ...
閱讀 1794·2023-04-26 02:14
閱讀 3719·2021-11-23 09:51
閱讀 1381·2021-10-13 09:39
閱讀 3963·2021-09-24 10:36
閱讀 3009·2021-09-22 15:55
閱讀 3511·2019-08-30 12:57
閱讀 2036·2019-08-29 15:30
閱讀 1980·2019-08-29 13:19