摘要:大概有三種方法可以限制蜘蛛的抓取文件文件用于限制搜索引擎蜘蛛的行為,在源站屏蔽蜘蛛主要是為了限制蜘蛛對同程序下不同域名的抓取。識別蜘蛛的,在網站程序上做限制獲取訪客的,如果是搜索引擎蜘蛛的,則跳轉至主站。
原文轉自本人博客 - Ku_Andrew"s Blog
CDN源站屏蔽搜索引擎爬蟲
自從去年全站使用阿里云CDN之后,網站訪問速度得到了很明顯的提升,同時阿里云CDN的穩定性也很棒。但最近這段時間發現,百度和谷歌的爬蟲開始爬我的源站了。這就有點麻煩了,要是不趕緊解決,給主站降權就不好了。
0x01 思路因為蜘蛛爬了不該爬的東西,解決思路自然是限制蜘蛛的爬取。
大概有三種方法可以限制蜘蛛的抓取:
robots文件用于限制搜索引擎蜘蛛的行為,在源站屏蔽蜘蛛主要是為了限制蜘蛛對同程序下不同域名的抓取。但是robots.txt文件沒有可以限制域名相關的參數,只能限制蜘蛛對當前域名下文件的抓取,此路不通。
2.設置META標簽當訪客訪問的域名不是主站域名時,在網頁的標簽中植入限制蜘蛛活動的內容,實現起來比較簡單,只用修改一下模板中的header文件即可。
3.識別蜘蛛的UA,在網站程序上做限制獲取訪客的User-Agent,如果是搜索引擎蜘蛛的UA,則跳轉至主站。也有一個問題,就是要去網上收集各家搜索引擎蜘蛛的UA,想著就累。
人懶,就選擇設置META標簽的方法。
第一步,在程序中獲取訪客訪問的域名。這一歩就不做多介紹了,不同語言和環境有不同的方法獲取,PHP可以通過如下語句獲取訪問者當前訪問的域名:
$_SERVER["SERVER_NAME"];
第二步,如果不為主站域名,則輸出HEAD中的META標簽限制蜘蛛的活動:
if ($_SERVER["SERVER_NAME"] != "www.kungg.com" { echo ""; }0x03 大功告成
額,插不了圖片。。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/10951.html
摘要:講述網站的訪問量從到,從到,從到,從到的過程。這時候的網站依然局限于單機發布,或者使用虛擬主機網站空間發布。這時候往往很難由一個人完成一個網站的開發工作。網站,很多it行業的人都了解。 網站的成長過程,卻是很多it行業人士并不理解的過程,往往還有人調侃:做個淘寶網多少錢?本文將逐步講述網站的成長過程。講述網站的訪問量從0到1,從1到100,從100到1000,從1000到1000000+的過...
摘要:講述網站的訪問量從到,從到,從到,從到的過程。緩存設計,負載均衡發布,數據庫高性能優化,數據庫讀寫分離,高性能中間件,分布式設計,加速,安全防御,云架構發布等等五花八門的技術綜合使用。 網站,很多it行業的人都了解。 網站的成長過程,卻是很多it行業人士并不理解的過程,往往還有人調侃:做個淘寶網多少錢?本文將逐步講述網站的成長過程。講述網站的訪問量從0到1,從1到100,從100到10...
摘要:頁面加速下載加速點播加速有什么區別,該如何選擇區別面向的加速內容不同,頁面加速主要針對網頁文件圖片文件等小文件下載加速主要針對安裝包,壓縮包等大文件點播加速主要針對等視頻文件。下載加速和點播加速默認情況下,所有文件緩存天。FAQQ:接入CDN加速的域名有什么要求?A:在接入 CDN 加速時,加速國內區域,需要在工信部完成備案,且源站的業務內容必須合法,否則將無法接入您的域名。加速海外區域源站...
摘要:長期維護該內核通用源碼包,目前已經支持和等絕大多數的發行版。選擇的加速區域在中國大陸地區之外,無論客戶端在哪訪問都不需要備案。網站或場景是否可以使用可以使用,全球動態加速支持透傳回源。FAQ加速配置和加速線路的關系1、帶寬共享功能:一個加速線路可以被多個加速配置綁定,這些加速配置共享加速線路的帶寬; 2、一個加速配置可以綁定多個加速線路。 3、刪除加速配置不會影響加速線路,加速線路仍存在...
閱讀 2029·2021-11-08 13:14
閱讀 2939·2021-10-18 13:34
閱讀 2027·2021-09-23 11:21
閱讀 3589·2019-08-30 15:54
閱讀 1758·2019-08-30 15:54
閱讀 2929·2019-08-29 15:33
閱讀 2578·2019-08-29 14:01
閱讀 1945·2019-08-29 13:52