如何使用robots禁止各大搜索引擎爬蟲爬取網(wǎng)站

RyanHoo 發(fā)布于2019-04-23 13:26 / 3071人閱讀

摘要：由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲抓取，干擾了線上正常環(huán)境的使用，剛好看到每次搜索淘寶時(shí)，都會(huì)有一句由于文件存在限制指令無法提供內(nèi)容描述，于是便去學(xué)習(xí)了一波原來一般來說搜索引擎爬取網(wǎng)站時(shí)都會(huì)，先讀取下文件，并依照里面所設(shè)定的規(guī)則去爬取

ps：由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲抓取，干擾了線上正常環(huán)境的使用，剛好看到每次搜索淘寶時(shí)，都會(huì)有一句由于robots.txt文件存在限制指令無法提供內(nèi)容描述，于是便去學(xué)習(xí)了一波

　　　1.原來一般來說搜索引擎爬取網(wǎng)站時(shí)都會(huì)，先讀取下robots.txt文件，并依照里面所設(shè)定的規(guī)則去爬取網(wǎng)站（當(dāng)然是指沒用登錄限制的頁面）

　　　 2.下面我們就來說一說如何設(shè)置robots.txt文件

　　　　1）.robots.txt文件必須是放在文件根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ ?└─templates

　　　　　　　　│ ?????????header.tpl.php

　　　　　　　　│ ?????????task_add.tpl.php

　　　　　　　　│? ?└─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜索引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設(shè)定檔案或文件夾，不允許被爬蟲爬取，且為 / 時(shí)禁止爬取整站，也可以指定文件路徑，不可爬取

　　　　　　　　Crawl-delay: 延時(shí)爬取，防止爬蟲短時(shí)間內(nèi)爬取網(wǎng)站過快導(dǎo)致網(wǎng)站崩潰，則可以設(shè)置該延時(shí)

　　　　　　　　Allow : 允許爬取指定頁面，為 / 時(shí)爬取整站

　　　　3）搜索引擎別稱

　　　　　　　　Googlebot 谷歌

?　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　類似我們測(cè)試環(huán)境就設(shè)置了

　　　　User-agent : / 所有搜索引擎

　　　　Disallow : / 禁止整站

GPU云服務(wù)器云服務(wù)器爬蟲如何使用如何使用網(wǎng)絡(luò)爬蟲爬蟲爬取數(shù)據(jù) java爬蟲爬取數(shù)據(jù)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/1875.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

RyanHoo

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

[黑五]RackNerd：多機(jī)房VPS年付10.88美元起

閱讀 2078·2021-11-23 10:13
#11.11#阿里云雙11上云狂歡節(jié)，云存儲(chǔ)產(chǎn)品低至1折起，OSS標(biāo)準(zhǔn)型存儲(chǔ)包￥79.20/年起

閱讀 2788·2021-11-09 09:47
主機(jī)名稱是指什么-手機(jī)正常的主機(jī)名是什么？

閱讀 2737·2021-09-22 15:08
易探云：9月秒殺活動(dòng),美國圣何塞/洛杉磯云服務(wù)器33/月起;香港CN2/BGP云服務(wù)器低至18元/月

閱讀 3312·2021-09-03 10:46
關(guān)于CSS3 flex布局，這樣簡(jiǎn)單做就好了。

閱讀 2230·2019-08-30 15:54
CSS3的content屬性詳解

閱讀 909·2019-08-28 18:09
數(shù)組去重

閱讀 2429·2019-08-26 18:26
無縫輪播圖

閱讀 2341·2019-08-26 13:48

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

如何使用robots禁止各大搜索引擎爬蟲爬取網(wǎng)站

相關(guān)文章

**Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---23、使用Urllib：分析Robots協(xié)議**

11、web爬蟲講解2—Scrapy框架爬蟲—Scrapy使用

Python爬蟲筆記1-爬蟲背景了解

scrapy提升篇之配置

發(fā)表評(píng)論

0條評(píng)論

RyanHoo

男|高級(jí)講師

TA的文章

[黑五]RackNerd：多機(jī)房VPS年付10.88美元起

#11.11#阿里云雙11上云狂歡節(jié)，云存儲(chǔ)產(chǎn)品低至1折起，OSS標(biāo)準(zhǔn)型存儲(chǔ)包￥79.20/年起

主機(jī)名稱是指什么-手機(jī)正常的主機(jī)名是什么？

易探云：9月秒殺活動(dòng),美國圣何塞/洛杉磯云服務(wù)器33/月起;香港CN2/BGP云服務(wù)器低至18元/月

關(guān)于CSS3 flex布局，這樣簡(jiǎn)單做就好了。

CSS3的content屬性詳解

數(shù)組去重

無縫輪播圖

最新活動(dòng)