摘要:事后策略指感知到有爬蟲事件后,采取的封禁驗證碼等組合策略。三反爬架構什么樣數據支撐平臺通過埋點采集等方式接入各類維度的基礎數據和第三方指紋,封裝成統一的數據輸出形式。
一、反爬體系要做什么
完整的反爬體系有三大部分工作要做:感知識別、策略分析、監控封禁。
(一)感知識別:
數據支撐:爬蟲指紋、設備指紋、風險UA、IP庫等,不同端指紋的mapping等。
數據感知,什么人,通過什么方式,用什么爬蟲,在什么時間,爬取了我們什么內容。
(二)策略分析:
事前策略:通過技術手段,在源頭使攻擊者無法爬取。
事后策略:指感知到有爬蟲事件后,采取的封禁、驗證碼等組合策略。
(三)識別封禁:
離線識別:通過數據埋點監控,可離線分析爬蟲情況,實時性差,但對業務無任何影響。
在線識別:在線檢測服務,在業務關鍵節點,調用在線檢測服務,實時感知爬蟲情況。
離線阻斷:離線分析后,根據策略篩選出要封禁的IP、UA、Session、userid等,調用封禁服務統一封禁。
在線阻斷:在線檢測到爬蟲行為后,直接調用封禁服務阻斷爬蟲。
二、反爬策略有哪些
(一)事前策略:
js計算:js添加簡單的數學計算,要求瀏覽器計算結果之后,返回給后端校驗計算結果,來識別是否是爬蟲行為。
js生成動態url:
生成動態參數:訪問頁面,先返回js腳本,js生成一個新參數,加入原請求中,再訪問,才可得到數據。
生成動態地址:訪問頁面,先返回js腳本,js生成新接口地址,再訪問新接口,才可得到數據。
js生成動態頁面:動態生成js標簽
因為js對用戶是可見的,所以要盡量提升攻擊成本,要寫難懂的js,比如大量使用eval和goto,比如做js混淆、js壓縮等。
(二)事后策略:
閾值封鎖
IP維度:常見,但有兩個缺陷:容易誤傷普通用戶,容易被繞過。
Session或uid等維度:需要考慮不同業務的Session或uid邏輯,是否唯一穩定?是否非空?
UA維度:誤殺非常嚴重,除非能準確識別爬蟲UA。
設備指紋:PC、APP、小程序。
投毒:命中相應策略后,后端給前端反回一定比例的假數據。
驗證碼:圖形、劃動、短信、人臉、聲紋。
加密:app參數加密,PC小程序前后端加密。前端加密需要做js混淆等處理。
三、反爬架構什么樣
數據支撐平臺:通過埋點、采集等方式接入各類維度的基礎數據和第三方指紋sdk,封裝成統一的數據輸出形式。數據輸出可以接口、db、log等不同形式。
數據分析平臺;輸入支撐數據,輸出爬蟲畫像。
策略分析平臺:輸入爬蟲畫像,采取不同策略,輸出策略分析結果。
上報阻斷平臺:輸入策略分析結果,上報給運維,做阻斷。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/11993.html
摘要:以上是如果你想精通網絡爬蟲的學習研究路線,按照這些步驟學習下去,可以讓你的爬蟲技術得到非常大的提升。 作者:韋瑋 轉載請注明出處 隨著大數據時代的到來,人們對數據資源的需求越來越多,而爬蟲是一種很好的自動采集數據的手段。 那么,如何才能精通Python網絡爬蟲呢?學習Python網絡爬蟲的路線應該如何進行呢?在此為大家具體進行介紹。 1、選擇一款合適的編程語言 事實上,Python、P...
摘要:不過,字體反爬也沒有用,畢竟我們會破哈哈。抖音的字體反爬是在一個分享個人主頁的鏈接中,別的鏈接暫時沒有測試,不過破了一個其他的也就破了。下載完之后我們可以用的一個工具包來查看字體映射。 現在的網站,處處都是反爬,我們這些爬蟲的經常需要和他們斗智斗勇,就看誰更厲害。這不,就連字體也弄成了反爬,而且還不止一個網站,常見的就有貓眼和汽車之家。不過,字體反爬也沒有用,畢竟我們會破!哈哈。 抖音...
摘要:極簡爬蟲攻防戰紀要爬蟲是構建搜索引擎的基礎負責抓取網頁信息并對網頁識別分類及過濾。爬蟲方終于鎖定了第一場戰役的勝局由于斷崖式技術的出現,反爬方在瀏覽器識別戰役上望風披靡。經過反爬方的精心運作,逐漸有效削弱了敵方的攻勢。 極簡爬蟲攻防戰紀要 ? ??爬蟲是構建搜索引擎的基礎, 負責抓取網頁信息并對網頁識別、分類及過濾。我們熟識的電商、搜索、新聞及各大門戶網站都有強大的爬蟲集群在每...
摘要:通過本文的學習,可以快速掌握網絡爬蟲基礎,結合實戰練習,寫出一些簡單的爬蟲項目。從技術手段來說,網絡爬蟲有多種實現方案,如。二網絡爬蟲技術基礎在本次課中,將使用技術手段進行項目的編寫。 摘要:本文詳細講解了python網絡爬蟲,并介紹抓包分析等技術,實戰訓練三個網絡爬蟲案例,并簡單補充了常見的反爬策略與反爬攻克手段。通過本文的學習,可以快速掌握網絡爬蟲基礎,結合實戰練習,寫出一些簡單的...
閱讀 3406·2021-11-25 09:43
閱讀 2293·2021-09-06 15:02
閱讀 3537·2021-08-18 10:21
閱讀 3339·2019-08-30 15:55
閱讀 2342·2019-08-29 17:06
閱讀 3533·2019-08-29 16:59
閱讀 960·2019-08-29 13:47
閱讀 2756·2019-08-26 13:24