極簡爬蟲攻防戰紀要

elliott_hu 發布于2019-08-26 14:06 / 593人閱讀

摘要：極簡爬蟲攻防戰紀要爬蟲是構建搜索引擎的基礎負責抓取網頁信息并對網頁識別分類及過濾。爬蟲方終于鎖定了第一場戰役的勝局由于斷崖式技術的出現，反爬方在瀏覽器識別戰役上望風披靡。經過反爬方的精心運作，逐漸有效削弱了敵方的攻勢。

極簡爬蟲攻防戰紀要

    ? ??爬蟲是構建搜索引擎的基礎, 負責抓取網頁信息并對網頁識別、分類及過濾。我們熟識的電商、搜索、新聞及各大門戶網站都有強大的爬蟲集群在每天高負荷運轉: 京東 v.s. 淘寶 v.s. 拼多多相互之間"友好地"價格監控, 頭條 v.s. 網易 v.s. 騰訊相互之間"和諧地"新聞消息聚合借鑒, Google / 百度 / 搜狗紛紛盡職地做網頁信息的搜索優化以及各大研究機構賣力地進行數據集構建。
        ? ??然而, 各大網站是不太會對非搜索引擎的爬蟲網開一面、任其予取予求的，畢竟無論什么時候，內容的價值都是顯而易見的，所以就有了下面的爬蟲方與反爬方的混戰大戲~
        ? ??各個巨頭之間的爬蟲與反爬蟲的攻防戰斗沒有一刻放松, 反爬網站要想制定反爬策略, 就要根據爬蟲的特性針對性選擇方案, 那么爬蟲有什么特點? 腳本 + 自動化。因此反爬方的毀滅性大招無非兩個:

非腳本訪問 => 瀏覽器真實性檢測

非自動化訪問 => 訪問用戶真實性檢測

慘烈的戰斗即將打響! 非戰斗人員迅速撤離!

Round One: Are you Really a Browser?

    ? ??瀏覽器由于其運行環境及運行原理, 會自帶一些特有的屬性: 存在Headers用于協議negotiation、可執行JavaScript代碼片段。那么反爬方的第一個堡壘就基于瀏覽器的真實性檢測開始構建。
    ? ??戰役伊始, 反爬蟲方率先祭出User-Agent, Content-Type, Application/*,iAccept-Encoding, Accept-Language, X-Forwarded-For, Referer等headers電網, 第一批與正常瀏覽器headers不同的爬蟲紛紛觸發, 瞬間斃命。然而, 爬蟲方也不是吃素的!  他們用了一招漂亮的瞞天過海, 迅速通過偽造headers的方式突破防線! 
    ? ??反爬方絲毫不慌, 在html中添加了一段JavaScript腳本地雷, 己方瀏覽器由于提前知道了地雷的位置，可以安全繞過, 不會影響正常的網頁顯示, 爬蟲方卻不明就里, 紛紛中招, 非死即傷，直到大殺器Node.js出現，可以直接執行JavaScript，爬蟲方終于奮起反擊，再下一城!![image.png](https://intranetproxy.alipay.com/skylark/lark/0/2019/png/88875/1565271756288-b128de6c-0efa-42bb-9b56-8fdc09caaf77.png#align=left&display=inline&height=178&name=image.png&originHeight=178&originWidth=984&size=194086&status=done&width=984)
    ? ??反爬方一計不成又生一計, 采用了迷宮式防御 — 單頁應用 — 的方式重鑄了堡壘，爬蟲方費盡了心機卻由于單頁應用巧妙的構筑方式而解析不到任何數據，一時間被繞得暈頭轉向，束手無策，單頁應用統治了戰場！反爬方開始了單方面的屠殺，爬蟲方的士氣一蹶不振…...**千軍坐鎮，百將舍身，十年磨劍，一鳴驚人！**終于，這場戰役的終結者出現了，他就是，Headless Chrome技術！新技術一出現，爬蟲方的武器庫煥然一新：Selenium,Puppeteer, PhantomJS, CasperJS等重裝攻城殺器不斷建功，反爬方一潰千里。爬蟲方終于鎖定了第一場戰役的勝局！

Round Two：Are you Really a Human？

    ? ??由于斷崖式技術Headless Chrome的出現，反爬方在瀏覽器識別戰役上望風披靡。然而勝敗乃兵家常事，東方不亮西方亮。在數據保衛戰生死存亡的關頭, 反爬方偶然發現了一個現象，瀏覽器雖然很難識別，但是人性是貪婪的！人類能做到很多腳本做不到的事！甚至人類的行為也是有固定的規律的！就這樣，反爬方臥薪嘗膽了許久，終于再次踏上了戰場！這一役的制高點，是一個靈魂兼哲學的雙層拷問：**你到底是不是人？！**
        ? ??第一層防線直指爬蟲方的要害 — 貪欲（訪問頻率）！每秒鐘請求10次這種高頻訪問，怎么可能發生在一個人類的身上，斬！爬蟲方不得不大幅降低了攻擊頻率，反爬方終于緩了一口氣。
        ? ??第二層防線指向爬蟲方的痛處 — 懶惰（固定IP）！最近的幾百次請求，都是同一個IP發出來的，世間哪有這么無聊的人？斬！爬蟲方為此不得不付出巨大的代價來購買代理ip，即使是這樣，反爬方依然可以通過封禁公網IP的方式來緊掉大量的代理地址。經過反爬方的精心運作，逐漸有效削弱了敵方的攻勢。
       ? ??戰役再次升級，反爬方請出了大國重器：驗證碼！大國重器上線不久即大獲成功，爬蟲方立刻損失慘重，仿佛一夜之間，所有的攻城器械都告無效，攻堅戰陷入了僵局……直到爬蟲方積年的技術積累取得的OCR重劍技術破土而出，才逐漸扭轉頹勢，但是依然不能壓制攻下的城池內地下黨的反撲, 尤其是爬蟲方主力Google的反水技術：
![image.png](https://intranetproxy.alipay.com/skylark/lark/0/2019/png/88875/1565271766680-40f3be34-fcb7-4122-b998-bbc725706240.png#align=left&display=inline&height=110&name=image.png&originHeight=110&originWidth=424&size=14653&status=done&width=424)
甫一投戰，反爬方立即大獲全勝！
        ? ??最后，反爬方乘勝追擊，祭出了終極防御：模式識別。爬蟲畢竟不是人類，在請求的時候只能機械地設置目標資源的請求id和請求參數，這就導致請求參數和請求順序必定是一致的。利用這一規律，反爬方通過設置閾值的方式對請求進行統計和識別，終于徹底杜絕了爬蟲偽裝成人類的進攻！第二場戰役，反爬方勝利！

兩場戰役下來, 雙方互有勝負,激烈的戰斗仍在繼續。恭祝雙方戰出友誼, 戰出激情!
--?一個曾經親歷過爬蟲與反爬蟲之戰的老兵為您現場報導, 感謝您的收看, 再見!

GPU云服務器云服務器極簡版極簡極簡模式 WordPress極簡主題

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/110063.html

Tomcat和搜索引擎網絡爬蟲的攻防

摘要：而搜索引擎如百度和微軟搜索，搜索等通過什么方式才能收錄我們的個人網站呢答案是搜索引擎的網絡爬蟲。網絡爬蟲是一個很形象的名詞，是屬于搜索引擎的工具，只有被這些網絡爬蟲爬過的內容才有機會出現在對應搜索引擎的搜索結果中。不知道廣大程序員朋友們注意到一個現象么？使用百度是無法搜索到淘寶網的網頁。為什么會造成這種現象？這就要從網絡爬蟲說起了。咱們程序員假如自己搭設個人網站，在上面分享少量自己...

cheukyin 2019-06-21 16:49 評論0 收藏0
爬蟲攻防實踐

摘要：之前在學校曾經用過的方法做過一些爬蟲腳本來玩，從正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網絡請求，比如要爬取豆瓣排行榜的電影，就會連續發送個網絡請求。之前在學校曾經用過request+xpath的方法做過一些爬蟲腳本來玩，從ios正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐...

wanglu1209 2019-08-02 15:34 評論0 收藏0
爬蟲攻防實踐

摘要：之前在學校曾經用過的方法做過一些爬蟲腳本來玩，從正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐。爬蟲腳本通常會很頻繁的進行網絡請求，比如要爬取豆瓣排行榜的電影，就會連續發送個網絡請求。之前在學校曾經用過request+xpath的方法做過一些爬蟲腳本來玩，從ios正式轉前端之后，出于興趣，我對爬蟲和反爬蟲又做了一些了解，并且做了一些爬蟲攻防的實踐...

xiangzhihong 2019-07-31 11:28 評論0 收藏0
Jsoup爬蟲獲取自己網站在百度搜索中的實時排名

摘要：沒有結果返回百度搜索的可以指定頁碼，最多一頁個，使用后有效減少了連接次數。但親測下來設置過以后的結果與實際用戶在百度搜索的結果排序和個數都有出入。 showImg(https://segmentfault.com/img/bVbnA0I?w=1280&h=787); 一直有一個需求，希望看到自己網站在百度的實時的排名用過一些工具，要么反應遲鈍，要么結果不準確或不實時于是打算用jsoup...

陳偉 2019-08-16 14:38 評論0 收藏0

發表評論

登陸后可評論

0條評論

elliott_hu

男|高級講師

我要關注我要私信

TA的文章

網站開啟CDN能給網站帶來哪些好處？

閱讀 1617·2021-11-22 13:53
云、可持續性、數字化采用——2022 年亞太地區技術預測

閱讀 2848·2021-11-15 18:10
C語言-常用字符函數詳解+模擬實現

閱讀 2754·2021-09-23 11:21
那些年踩過的坑——input輸入框 ios端 readyonly 點擊出現光標

閱讀 2491·2019-08-30 15:55
【二次元的CSS】—— CSS3畫的能換頻道的電視機（合集）

閱讀 474·2019-08-30 13:02
FE.ES-理解ECMA Javascript的this

閱讀 752·2019-08-29 17:22
SegmentFault 技術周刊 Vol.38 - 神奇的 CSS

閱讀 1658·2019-08-29 13:56
css 屬性書寫順序推薦

閱讀 3454·2019-08-29 11:31

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

極簡爬蟲攻防戰紀要

相關文章

Tomcat和搜索引擎網絡爬蟲的攻防

爬蟲攻防實踐

爬蟲攻防實踐

Jsoup爬蟲獲取自己網站在百度搜索中的實時排名

發表評論

0條評論

elliott_hu

男|高級講師

TA的文章

網站開啟CDN能給網站帶來哪些好處？

云、可持續性、數字化采用——2022 年亞太地區技術預測

C語言-常用字符函數詳解+模擬實現

那些年踩過的坑——input輸入框 ios端 readyonly 點擊出現光標

【二次元的CSS】—— CSS3畫的能換頻道的電視機（合集）

FE.ES-理解ECMA Javascript的this

SegmentFault 技術周刊 Vol.38 - 神奇的 CSS

css 屬性書寫順序推薦

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

極簡爬蟲攻防戰紀要

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！