惡意爬蟲這樣窺探、爬取、威脅你的網站

wangbjun 發(fā)布于2019-07-25 13:49 / 2569人閱讀

摘要：利用這一業(yè)務邏輯，惡意爬蟲通過各類社工庫拿到一批手機號后可以在短時內驗證這批號碼是否為某一網站的注冊用戶。事前的甄別預防才是關鍵惡意爬蟲在給網站帶來可觀訪問量的同時，也帶來了難以估量的威脅和損失。

整個互聯(lián)網的流量中，真人占比有多少？

80% ？?60% ？?50% ？

根據 Aberdeen Group 在近期發(fā)布的以北美幾百家公司數據為樣本的爬蟲調查報告顯示，2015 年網站流量中的真人訪問僅為總流量的 54.4% ，剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構成。

爬與反爬的斗爭從未間斷

惡意爬蟲占比數據與 2013 年和 2014 年相比有所下降，同時真人訪問的占比也有所提升，但這并不意味著惡意爬蟲日漸式微。一個原因是印度、印度尼西亞等高人口總數國家的互聯(lián)網新增人口有大幅提升，另一方面，惡意爬蟲制造者更專注于爬蟲的質量而不是數量，如今的惡意爬蟲具有高持續(xù)性和可變性。

爬與反爬的斗爭從未間斷。過去的初級爬蟲能很明顯從異常的 Headers 信息甄別，但爬蟲制造者從一次次爬與反爬中總結出可能被封的原因，通過不斷的測試和改善爬蟲程序，更新?lián)Q代后的高持續(xù)性惡意爬蟲通常具有以下特點中的某幾個：

模仿真人行為

加載 Javascript 和外部資源

模擬 cookie 和 useragent

瀏覽器自動化操作

變化的 IP 地址池

可能很多人認為，惡意爬蟲只會威脅到少數以文本為核心價值的網站，其實這些能改變自己請求路徑和請求方式的偽裝者可能潛伏在任何一個網站的每一個角落，文本、圖片、價格、評論、接口、架構等方方面面均有可能成為爬蟲的囊中物。

縱容爬蟲的危害你必須知道

從網站業(yè)務安全的角度，縱容這些偽裝者的危害有以下幾點：

一、?核心文本被爬

網站的核心文本可能在幾小時甚至幾分鐘內就被惡意爬蟲抓取并悄無聲息的復制到別的網站。核心內容被復制會極大影響網站和網頁本身在搜索引擎上的排名，低排名會導致訪問量降低和銷量、廣告收益降低的惡性循環(huán)。

在內容為王、用戶粘性不高的今天，核心內容很大程度上會影響網站在用戶心目中的價值。若網站以文本為商品作為盈利點，那惡意爬蟲更是影響 KPI 的罪魁禍首。

關注網站：
文學博客、招聘網站、論壇網站、電商內的評論

二、商品價格被爬 1. 價格爬蟲的成因有兩種，一是網站競爭對手刻意爬取商品詳情和價格后進行同類產品線和價格的研究。

比如某 APP 上線新的租車服務前，會爬取所有競品 APP 中的車型詳情及定價策略，為新服務上線打下價格優(yōu)勢。

另一個案例來自某酒店網站，我們在數據分析平臺 Warden 實踐中發(fā)現，網站的客房詳情被爬蟲攻擊，機器訪問的特點非常明顯：

頁面被某幾個 IP 超高頻訪問，單個 IP每小時訪問量達 5000 以上

部分 IP 的訪問路徑極為單一，僅請求房價詳情頁面，無真人訪問的“首頁→搜索→詳情頁→搜索”軌跡

訪問間隔極短，且每次均請求不同時間段不同地域不同編號的酒店客房信息

以上特點能完全排除真人訪問的可能，在?數據分析平臺中也觸發(fā)多個實時策略，讓我們可以協(xié)助用戶及時處理。

?* IP 點擊詳情

*某一條點擊詳情的 request 和 response 信息*

*點擊數及報警數統(tǒng)計，紅點部分為觸發(fā)報警*

這類爬蟲就是典型的價格爬蟲，如不進行實時判斷和攔截，網站的定價信息可能在幾小時內就被競爭對手完全掌握。

2. 第二個成因是羊毛黨們試圖搜尋低價商品信息或在營銷大促前提前獲取情報尋找套利的可能。

比如某 P2P 行業(yè)客戶發(fā)現近幾個月理財轉讓專區(qū)的產品幾乎在放出 2 秒內就被轉讓成功，而網站的活躍用戶并沒有大幅的增長，轉讓專區(qū)疑似被爬。

通過數據分析平臺能在流量中能看到該轉讓頁面正在遭受爬蟲的攻擊，攻擊者能在極短時間內獲取轉讓產品的收益率并自動篩選高收益率的產品，甚至能實現腳本自動下單購買。
?

3. 另一個案例來自某電商平臺

某次聲勢浩大的營銷活動規(guī)定新注冊用戶綁卡后能獲得一次抽獎機會，由于抽獎接口遺漏了其他渠道分享入口，給羊毛黨有了不綁卡也能抽獎的可趁之機，造成活動幾乎全部的獎品被羊毛黨薅去。

*網站營銷頁面點擊量突增*

*風險情報系統(tǒng)提示該 IP 具有高風險分值*

在事后復盤時，我們在數據分析平臺中發(fā)現羊毛黨活動前疑似派出爬蟲探路，活動匯總頁面被超高頻訪問，雖然訪問量并不集中于某幾個 IP ，但有訪問地域集中于某兩個城市、訪問路徑單一且訪問間隔有規(guī)律等特點。另外，通過風險情報系統(tǒng) Red.Q 的數據，同樣提示這些訪問 IP 的高風險分值，活動開始后羊毛黨的訪問也有類似的訪問規(guī)律。
?
羊毛黨的活動特性是個大話題，在此先不展開，但從案例中能看到，價格爬蟲是羊毛黨們的先鋒探路工具，攻擊者們可以通過爬蟲獲得營銷活動的具體信息，同時能測試網站對高頻訪問或最大訪問量的限制，為之后的薅羊毛做鋪墊。

3.?注冊用戶被掃描

如果在網站的注冊頁面輸入一個已注冊過的號碼，通常會看到“該用戶已注冊”的提示，這一信息也會在請求的 response 中顯示，一些網站的短信接口也有類似邏輯，注冊用戶和非注冊用戶返回的字段和枚舉值會有不同。利用這一業(yè)務邏輯，惡意爬蟲通過各類社工庫拿到一批手機號后可以在短時內驗證這批號碼是否為某一網站的注冊用戶。

這個數據有什么利用價值？除了很明顯的違法欺詐外，攻擊者可以將數據打包出售給競爭對手或感興趣的數據營銷公司，完善他們的精準營銷數據。

4.?其他危害

點擊欺詐：點擊欺詐會給網站造成實實在在的利益損失。投放廣告通常是為了觸達符合網站定位的潛在消費者，爬蟲造成的點擊欺詐使得廣告的點擊率虛高，使得網站承擔了本不應承擔的點擊費用。從運營角度出發(fā)，訪問量無原因的忽高忽高也不利于分析廣告投放效果。

網站帶寬負擔：對于帶寬有限的中小型網站，爬蟲可能會降低網頁加載速度，影響真實用戶的訪問體驗。

事前的甄別預防才是關鍵

惡意爬蟲在給網站帶來可觀訪問量的同時，也帶來了難以估量的威脅和損失。

從實際案例中我們可以看到，惡意爬蟲已經承擔了整個攻擊環(huán)節(jié)先鋒者的重任，所以在分析網站的業(yè)務安全風險時，我們可以更多的關注流量和用戶行為的異常點，盡可能的在惡意行為剛發(fā)生時就及時甄別并做出合理的判斷和攔截，必要時，宜采用專業(yè)的風險情報系統(tǒng)和數據分析平臺進行系統(tǒng)的部署。對于企業(yè)來說，事前預防遠比事后補救重要。

反爬蟲
文章來源：http://bigsec.com/

作者簡介

大星豈安科技數據分析師?
3年互聯(lián)網數據分析及運營經驗，豐富的多行業(yè)業(yè)務風險反欺詐經驗，負責豈安科技產品運營及不同行業(yè)不同客戶的業(yè)務風險分析。

云服務器 GPU云服務器惡意爬蟲爬蟲爬取數據 java爬蟲爬取數據類似xyz這樣的網站域名

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/39399.html

python

Python裝飾器為什么難理解？無論項目中還是面試都離不開裝飾器話題，裝飾器的強大在于它能夠在不修改原有業(yè)務邏輯的情況下對代碼進行擴展，權限校驗、用戶認證、日志記錄、性能測試、事務處理、緩存等都是裝飾器的絕佳應用場景，它能夠最大程度地對代碼進行復用。但為什么初學者對裝飾器的理解如此困難，我認為本質上是對Py… Python 實現車牌定位及分割作者用 Python 實現車牌定位及分割的實踐。 ...

chenatu 2019-07-30 15:35 評論0 收藏0
AI重新定義Web安全

摘要：在不便中，一直蘊藏著技術革新的機會這時，機器學習來了機器學習是解決安全問題的金鑰匙機器學習其實早已到來。正因為安全問題本質是特定領域內的識別問題，所以從理論上講，機器學習非常適合應用在安全領域，是解決安全問題的金鑰匙。作者簡介： showImg(https://segmentfault.com/img/bVXnOA?w=279&h=306); 叢磊白山合伙人兼工程副總裁。叢磊先生2...

617035918 2019-06-26 18:18 評論0 收藏0
爬蟲 - 收藏集 - 掘金

摘要：在這之前，還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統(tǒng)。爬蟲修煉之道——從網頁中提取結構化數據并保存（以爬取糗百文本板塊所有糗事為例） - 后端 - 掘金歡迎大家關注我的專題：爬蟲修煉之道上篇爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲，如何將相對URL轉為絕對URL，如何限速，...

1fe1se 2019-07-31 10:58 評論0 收藏0
nodeJS實現基于Promise爬蟲定時發(fā)送信息到指定郵件

摘要：也就是說，我的篇文章的請求對應個實例，這些實例都請求完畢后，執(zhí)行以下邏輯他的目的在于對每一個返回值這個返回值為單篇文章的內容，進行方法處理。英國人Robert Pitt曾在Github上公布了他的爬蟲腳本，導致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。亮點在于，這是個nodejs腳本，非常短，包括注釋只有71行。 ...

xuweijian 2019-08-20 15:27 評論0 收藏0