国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專(zhuān)欄INFORMATION COLUMN

網(wǎng)站信息采集

AZmake / 1934人閱讀

摘要:網(wǎng)站信息采集在編寫(xiě)爬蟲(chóng)之前可能需要先了解和搜集網(wǎng)站信息協(xié)議也稱(chēng)為爬蟲(chóng)協(xié)議機(jī)器人協(xié)議等的全稱(chēng)是網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn),網(wǎng)站通過(guò)協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。

網(wǎng)站信息采集

在編寫(xiě)爬蟲(chóng)之前可能需要先了解和搜集網(wǎng)站信息

robots.txt
Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。一般的網(wǎng)站都會(huì)有這個(gè)文件。可以大致了解這個(gè)網(wǎng)站存在哪些限制

下面是知乎的robots.txt,可以通過(guò)https://www.zhihu.com/robots....

# 禁止今日頭條和悟空問(wèn)答爬蟲(chóng)抓取知乎網(wǎng)站內(nèi)容
User-agent: *
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 10

Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*
Disallow: /people/*

其中User-agent說(shuō)明了對(duì)哪些用戶(hù)代理的限制,*表示限制所有的爬蟲(chóng),還設(shè)置了請(qǐng)求速率 每?jī)擅朐L(fǎng)問(wèn)一個(gè)頁(yè)面,還設(shè)置了Crawl-delay,10秒的抓取延時(shí),為了知乎的服務(wù)器不過(guò)載,我們最好遵循一下????后面的Disallow則限制了訪(fǎng)問(wèn)的路徑

用site:example.com估計(jì)網(wǎng)站的大小

你想抓取信息的網(wǎng)站有九成是被百度或者Google訪(fǎng)問(wèn)過(guò)的,通過(guò)這條命令可以快速的了解網(wǎng)站的大小,以便在設(shè)計(jì)爬蟲(chóng)的時(shí)候選擇合適的方案

識(shí)別網(wǎng)站所用的技術(shù)

安裝builtwith模塊

pip install builtwith

使用方式

import builtwith as bw
res = bw.parse("https://www.zhihu.com/")
print(res)
# {"javascript-frameworks": ["React", "RequireJS"]}
res = bw.parse("https://www.upc.edu.cn/")
print(res)
# {"font-scripts": ["Font Awesome"], "javascript-frameworks": ["jQuery"]}
res = bw.parse("http://example.webscraping.com")
print(res)
#{"web-servers": ["Nginx"], "web-frameworks": ["Web2py", "Twitter Bootstrap"], "programming-languages": ["Python"], "javascript-frameworks": ["jQuery", "Modernizr", "jQuery UI"]}

可以得知知乎使用的是React框架,還能知道網(wǎng)站用什么語(yǔ)言開(kāi)發(fā)的,服務(wù)器類(lèi)型等等

個(gè)人爬蟲(chóng)經(jīng)驗(yàn)收集地址

https://github.com/No-96/Feng...

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/41308.html

相關(guān)文章

  • 一步一步教你如何搭建自己的視頻聚合站

    摘要:不過(guò)因?yàn)楦鱾€(gè)平臺(tái)互相挖人的關(guān)系,導(dǎo)致關(guān)注的一些主播分散到了各個(gè)直播平臺(tái),來(lái)回切換有點(diǎn)麻煩,所以萌生了做一個(gè)視頻聚合站的想法。后續(xù)我們會(huì)對(duì)這三個(gè)部分的功能做逐一展開(kāi)說(shuō)明。正則處理要求比較高,但是幾乎能應(yīng)對(duì)所有的情況,屬于大殺器。 前言 作為一個(gè)爐石傳說(shuō)玩家,經(jīng)常有事沒(méi)事開(kāi)著直播網(wǎng)站看看大神們的精彩表演。不過(guò)因?yàn)楦鱾€(gè)平臺(tái)互相挖人的關(guān)系,導(dǎo)致關(guān)注的一些主播分散到了各個(gè)直播平臺(tái),來(lái)回切換有點(diǎn)麻...

    justjavac 評(píng)論0 收藏0
  • web 埋點(diǎn)實(shí)現(xiàn)原理了解一下

    摘要:前言埋點(diǎn),是網(wǎng)站分析的一種常用的數(shù)據(jù)采集方法。缺點(diǎn)是流量和采集的數(shù)據(jù)過(guò)于龐大,服務(wù)器性能壓力山大,主流的就是這種實(shí)現(xiàn)方案。我們暫時(shí)放棄可視化埋點(diǎn)的實(shí)現(xiàn),在手動(dòng)埋點(diǎn)和無(wú)埋點(diǎn)上進(jìn)行了嘗試,為了便于描述,下文我會(huì)稱(chēng)采集腳本為。 前言 埋點(diǎn),是網(wǎng)站分析的一種常用的數(shù)據(jù)采集方法。我們主要用來(lái)采集用戶(hù)行為數(shù)據(jù)(例如頁(yè)面訪(fǎng)問(wèn)路徑,點(diǎn)擊了什么元素)進(jìn)行數(shù)據(jù)分析,從而讓運(yùn)營(yíng)同學(xué)更加合理的安排運(yùn)營(yíng)計(jì)劃。現(xiàn)...

    MASAILA 評(píng)論0 收藏0
  • 高效采集數(shù)據(jù)的背后都有一個(gè)DTM

    摘要:結(jié)論在本文中,我們學(xué)習(xí)了如何通過(guò)華為動(dòng)態(tài)標(biāo)簽管理高效采集應(yīng)用數(shù)據(jù),驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng),我們還可以通過(guò)優(yōu)化廣告投放效果進(jìn)行反欺詐分析等,以最大程度地提高營(yíng)銷(xiāo)人員的工作效率。 華為動(dòng)態(tài)標(biāo)簽管理(Dynamic Tag Manager,以下簡(jiǎn)稱(chēng)DTM),是一個(gè)動(dòng)態(tài)標(biāo)簽代碼管理系統(tǒng)(Tag Manager System),我...

    lemon 評(píng)論0 收藏0
  • 前端到底是求職者的樂(lè)土還是日漸成為燙手的山芋?

    摘要:前端技術(shù)是近年來(lái)一個(gè)新興職業(yè),是伴隨著興起而細(xì)分進(jìn)去的行業(yè)。數(shù)據(jù)采集結(jié)果采集到前端工程師崗位招聘信息原始數(shù)據(jù)共萬(wàn)多條,考慮到時(shí)效性和真實(shí)性,最終篩選出條信息作為報(bào)告分析對(duì)象。所以說(shuō)前端工作還是很好找的。 showImg(https://segmentfault.com/img/bVbeN9h?w=580&h=435);web前端技術(shù)是近年來(lái)一個(gè)新興職業(yè),是伴隨著web興起而細(xì)分進(jìn)去的行...

    hufeng 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<