selenium跳過webdriver檢測并模擬登錄淘寶

tulayang 發布于2019-07-31 10:09 / 2690人閱讀

摘要：是一款優秀的自動化測試工具，所以現在采用進行半自動化爬取數據，支持模擬登錄淘寶和自動處理滑動驗證碼。編寫思路由于現在大型網站對工具進行檢測，若檢測到，則判定為機器人，訪問被拒絕。以開頭的在中表示類名，以開頭的在中表示名。

簡介

模擬登錄淘寶已經不是一件新鮮的事情了，過去我曾經使用get/post方式進行爬蟲，同時也加入IP代理池進行跳過檢驗，但隨著大型網站的升級，采取該策略比較難實現了。因為你使用get/post方式進行爬取數據，會提示需要登錄，而登錄又是一大難題，需要滑動驗證碼驗證。當你想使用IP代理池進行跳過檢驗時，發現登錄時需要手機短信驗證碼驗證，由此可以知道舊的全自動爬取數據對于大型網站比較困難了。

selenium是一款優秀的WEB自動化測試工具，所以現在采用selenium進行半自動化爬取數據，支持模擬登錄淘寶和自動處理滑動驗證碼。

編寫思路

由于現在大型網站對selenium工具進行檢測，若檢測到selenium，則判定為機器人，訪問被拒絕。所以第一步是要防止被檢測出為機器人，如何防止被檢測到呢？當使用selenium進行自動化操作時，在chrome瀏覽器中的consloe中輸入windows.navigator.webdriver會發現結果為Ture，而正常使用瀏覽器的時候該值為False。所以我們將windows.navigator.webdriver進行屏蔽。
在代碼中添加：

        options = webdriver.ChromeOptions()
        # 此步驟很重要，設置為開發者模式，防止被各大網站識別出來使用了Selenium
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) 
        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)

同時，為了加快爬取速度，我們將瀏覽器模式設置為不加載圖片，在代碼中添加：

        options = webdriver.ChromeOptions()
        # 不加載圖片,加快訪問速度
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

至此，關鍵的步驟我們已經懂了，剩下的就是編寫代碼的事情了。在給定的例子中，需要你對html、css有一定了解。
比如存在以下代碼：

        self.browser.find_element_by_xpath("http://*[@class="btn_tip"]/a/span").click()
        taobao_name = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".site-nav-bd > ul.site-nav-bd-l > li#J_SiteNavLogin > div.site-nav-menu-hd > div.site-nav-user > a.site-nav-login-info-nick ")))
        print(taobao_name.text)

第1行代碼指的是從根目錄(//)開始尋找任意(*)一個class名為btn_tip的元素，并找到btn_tip的子元素a標簽中的子元素span

第2行代碼指的是等待某個CSS元素出現，否則代碼停留在這里一直檢測。以.開頭的在CSS中表示類名(class)，以#開頭的在CSS中表示ID名(id)。A > B，指的是A的子元素B。所以這行代碼可以理解為尋找A的子元素B的子元素C的子元素D的子元素E出現，否則一直在這里檢測。

第3行代碼指的是打印某個元素的文本內容

使用教程

點擊這里下載下載chrome瀏覽器

查看chrome瀏覽器的版本號，點擊這里下載對應版本號的chromedriver驅動

pip安裝下列包

[x] pip install selenium

點擊這里登錄微博，并通過微博綁定淘寶賬號密碼

在main中填寫chromedriver的絕對路徑

在main中填寫微博賬號密碼

    #改成你的chromedriver的完整路徑地址
    chromedriver_path = "/Users/bird/Desktop/chromedriver.exe" 
    #改成你的微博賬號
    weibo_username = "改成你的微博賬號"
    #改成你的微博密碼
    weibo_password = "改成你的微博密碼"

演示圖片

圖片查看不了點擊這里

源代碼

項目源代碼在GitHub倉庫

項目持續更新，歡迎您star本項目

GPU云服務器云服務器 selenium模擬webrtc攝像頭 linux 跳過磁盤檢測 ECS 跳過磁盤檢測 aspx 跳過登錄

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/43347.html

selenium跳過webdriver檢測并爬取淘寶我已購買的寶貝數據

摘要：簡介上一個博文已經講述了如何使用跳過檢測并爬取天貓商品數據，所以在此不再詳細講，有需要思路的可以查看另外一篇博文。簡介上一個博文已經講述了如何使用selenium跳過webdriver檢測并爬取天貓商品數據，所以在此不再詳細講，有需要思路的可以查看另外一篇博文。源代碼 # -*- coding: utf-8 -*- from selenium import webdr...

banana_pi 2019-07-31 10:10 評論0 收藏0
selenium跳過webdriver檢測并爬取天貓商品數據

摘要：簡介現在爬取淘寶，天貓商品數據都是需要首先進行登錄的。把關鍵點放在如何爬取天貓商品數據上。是一款優秀的自動化測試工具，所以現在采用進行半自動化爬取數據。以開頭的在中表示類名，以開頭的在中表示名。簡介現在爬取淘寶，天貓商品數據都是需要首先進行登錄的。上一節我們已經完成了模擬登錄淘寶的步驟，所以在此不詳細講如何模擬登錄淘寶。把關鍵點放在如何爬取天貓商品數據上。過去我曾經使用get/p...

codecook 2019-07-31 10:09 評論0 收藏0
一行js代碼識別Selenium+Webdriver及其應對方案

摘要：截至年月日分，本文所講的方法可以用來登錄知乎。如果使用直接登錄知乎，會彈出驗證碼先使用本文的方法再登錄知乎，能夠成功偽裝成真實的瀏覽器，不會彈出驗證碼。實際上，能被識別的特征不止這一個。有不少朋友在開發爬蟲的過程中喜歡使用Selenium + Chromedriver，以為這樣就能做到不被網站的反爬蟲機制發現。先不說淘寶這種基于用戶行為的反爬蟲策略，僅僅是一個普通的小網站，使用一行...

andycall 2019-08-23 15:10 評論0 收藏0
一行js代碼識別Selenium+Webdriver及其應對方案

摘要：截至年月日分，本文所講的方法可以用來登錄知乎。如果使用直接登錄知乎，會彈出驗證碼先使用本文的方法再登錄知乎，能夠成功偽裝成真實的瀏覽器，不會彈出驗證碼。實際上，能被識別的特征不止這一個。有不少朋友在開發爬蟲的過程中喜歡使用Selenium + Chromedriver，以為這樣就能做到不被網站的反爬蟲機制發現。先不說淘寶這種基于用戶行為的反爬蟲策略，僅僅是一個普通的小網站，使用一行...

Tamic 2019-07-31 10:03 評論0 收藏0
Web開發 - Selenium自動化&爬蟲

摘要：自動化爬取淘寶中的訂單這是淘寶會員登錄頁。但淘寶的反爬機制很難算出，很多都是通過的計算，所以不得不學習源碼，反到最后看的頭痛。。。自動化爬取淘寶中的訂單這是淘寶會員登錄頁。因為之前做的爬蟲都是通過框架或從登錄頁取得Cookie，再注入進去實現登陸過程的。但淘寶的反爬機制很難算出Cookie，很多Cookie都是通過JS的計算，所以不得不學習源碼，反到最后看的頭痛。。。第一次嘗...

Chao 2019-08-14 17:54 評論0 收藏0