国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

如何使用robots禁止各大搜索引擎爬蟲爬取網(wǎng)站

RyanHoo / 3071人閱讀

摘要:由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲抓取,干擾了線上正常環(huán)境的使用,剛好看到每次搜索淘寶時(shí),都會(huì)有一句由于文件存在限制指令無法提供內(nèi)容描述,于是便去學(xué)習(xí)了一波原來一般來說搜索引擎爬取網(wǎng)站時(shí)都會(huì),先讀取下文件,并依照里面所設(shè)定的規(guī)則去爬取

ps:由于公司網(wǎng)站配置的測(cè)試環(huán)境被百度爬蟲抓取,干擾了線上正常環(huán)境的使用,剛好看到每次搜索淘寶時(shí),都會(huì)有一句由于robots.txt文件存在限制指令無法提供內(nèi)容描述,于是便去學(xué)習(xí)了一波

   1.原來一般來說搜索引擎爬取網(wǎng)站時(shí)都會(huì),先讀取下robots.txt文件,并依照里面所設(shè)定的規(guī)則去爬取網(wǎng)站(當(dāng)然是指沒用登錄限制的頁面)

    2.下面我們就來說一說如何設(shè)置robots.txt文件

    1).robots.txt文件必須是放在文件根目錄上:
      例如:

        ├─admin

        │ ?└─templates

        │ ?????????header.tpl.php

        │ ?????????task_add.tpl.php

        │? ?└─robots.txt

     2 ) .首先常用的命令為

        User-agent : 可以具體制定User-agent適用,即搜索引擎的名字,如果為 * 的話則為通配

        Disallow : 可以設(shè)定檔案或文件夾,不允許被爬蟲爬取,且為 / 時(shí)禁止爬取整站 ,也可以指定文件路徑,不可爬取

        Crawl-delay: 延時(shí)爬取,防止爬蟲短時(shí)間內(nèi)爬取網(wǎng)站過快導(dǎo)致網(wǎng)站崩潰,則可以設(shè)置該延時(shí)

        Allow : 允許爬取指定頁面, 為 / 時(shí)爬取整站

    3) 搜索引擎別稱

        Googlebot 谷歌

?        Baiduspider 百度

        等等

  類似我們測(cè)試環(huán)境就設(shè)置了

?

    User-agent : / 所有搜索引擎

    Disallow : / 禁止整站

?

?

        

?

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/1875.html

相關(guān)文章

  • Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---23、使用Urllib:分析Robots協(xié)議

    摘要:比如我們可以設(shè)置這就代表我們?cè)O(shè)置的規(guī)則對(duì)百度爬蟲是有效的。上一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)使用解析鏈接下一篇文章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)基本使用 上一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---22、使用Urllib:解析鏈接下一篇文章:Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---24、requests:基本使用 利用 Urllib 的 robotparser 模塊我們可以實(shí)現(xiàn)網(wǎng)站 Robots 協(xié)議的分析,本節(jié)我們來簡(jiǎn)...

    kaka 評(píng)論0 收藏0
  • 11、web爬蟲講解2—Scrapy框架爬蟲—Scrapy使用

    摘要:百度云搜索,搜各種資料搜網(wǎng)盤,搜各種資料表達(dá)式表示向下查找層指定標(biāo)簽,如表示查找所有標(biāo)簽表示向下查找一層指定的標(biāo)簽表示查找指定屬性的值可以連綴如屬性名稱屬性值表示查找指定屬性等于指定值的標(biāo)簽可以連綴,如查找名稱等于指定名稱的標(biāo)簽獲取標(biāo)簽文本 【百度云搜索,搜各種資料:http://www.lqkweb.com】 【搜網(wǎng)盤,搜各種資料:http://www.swpan.cn】 xpath...

    trilever 評(píng)論0 收藏0
  • Python爬蟲筆記1-爬蟲背景了解

    摘要:學(xué)習(xí)爬蟲的背景了解。但是搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容,如標(biāo)注為的鏈接,或者是協(xié)議。不同領(lǐng)域不同背景的用戶往往具有不同的檢索目的和需求,搜索引擎無法提供針對(duì)具體某個(gè)用戶的搜索結(jié)果。 學(xué)習(xí)python爬蟲的背景了解。 大數(shù)據(jù)時(shí)代數(shù)據(jù)獲取方式 如今,人類社會(huì)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)成為必不可少的部分,可見數(shù)據(jù)的獲取非常重要,而數(shù)據(jù)的獲取的方式...

    oujie 評(píng)論0 收藏0
  • scrapy提升篇之配置

    摘要:提升篇之配置增加并發(fā)并發(fā)是指同時(shí)處理的的數(shù)量。其有全局限制和局部每個(gè)網(wǎng)站的限制。使用級(jí)別來報(bào)告這些信息。在進(jìn)行通用爬取時(shí)并不需要,搜索引擎則忽略。禁止能減少使用率及爬蟲在內(nèi)存中記錄的蹤跡,提高性能。 scrapy提升篇之配置 增加并發(fā) 并發(fā)是指同時(shí)處理的request的數(shù)量。其有全局限制和局部(每個(gè)網(wǎng)站)的限制。Scrapy默認(rèn)的全局并發(fā)限制對(duì)同時(shí)爬取大量網(wǎng)站的情況并不適用,因此您需要...

    劉永祥 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<