Python3 實現淘女郎照片爬蟲

jindong 發布于2019-07-25 10:42 / 2456人閱讀

摘要：項目簡介本實驗通過使用實現一個淘寶女郎圖片收集爬蟲，學習并實踐及正則表達式等知識。本教程由阿發布在實驗樓，完整教程及在線練習地址實現淘女郎照片爬蟲，可以直接在教程中下載代碼使用。

項目簡介：本實驗通過使用 Python 實現一個淘寶女郎圖片收集爬蟲，學習并實踐 BeautifulSoup、Selenium Webdriver 及正則表達式等知識。

本教程由阿treee發布在實驗樓，完整教程及在線練習地址：Python3 實現淘女郎照片爬蟲，可以直接在教程中下載代碼使用demo。

一、實驗說明 1.1 實驗介紹

本項目通過使用 Python 實現一個淘女郎圖片收集爬蟲，學習并實踐 BeautifulSoup、Selenium Webdriver 及正則表達式等知識。在項目開發過程中采用瀑布流開發模型。

1.2 知識點

本項目中將會學習并實踐以下知識點：

Python3 編程

使用 BeautifulSoup 解析 HTML 頁面

使用 Selenium Webdriver 爬取 Web 頁面

使用正則表達式提取所需的關鍵信息

1.3 實驗效果

首先我們要爬取的目標頁面如下：

爬取后的目錄結構如下：

每個目錄中都有一系列的圖片：

二、基礎工具

本節主要介紹和安裝項目中將用到的幾個基礎工具。本實驗使用實驗樓的環境開發，中間部分步驟在不同版本的 Linux 環境下會有不同。

2.1 安裝 pip3

首先，由于使用的工具都需要通過 pip3 進行安裝，實驗樓的環境中沒有安裝 pip3，所以需要先將pip3準備好。

打開桌面上的 Xfce 終端，輸入下面的命令安裝 pip3：

sudo apt-get update
sudo apt-get install python3-pip

2.2 安裝 BeatifulSoup 簡介

BeautifulSoup 庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名歌詞。就像故事中他在仙境中的說法一樣，BeautifulSoup 試圖化平淡為神奇。它通過定位 HTML 標簽來去格式化和組織復雜的網絡信息，用簡單易用的 Python 對象為我們展現 XML 結構信息。

安裝

由于這次實驗是在 python3.X 版本以上的所以，將拓展庫安裝到特定的庫中使用 pip3，從而安裝到 python3 的系統目錄中，仍然是在實驗樓中的 Xfce 終端執行命令：

sudo pip3 install Beautifulsoup4

BeautifulSoup4 是現今的最新版本，也是接下來重點使用的工具。

2.3 Selenium 簡介

Selenium 是一個強大的網絡數據采集工具，最初是為網站自動化測試而開發的。近幾年，他還被廣泛用于獲取精確的網站快照，因為他們可以直接運行在瀏覽器上。Selenium 可以讓瀏覽器自動加載頁面，獲取需要的數據，甚至頁面截屏，或者判斷網站上某些動作上是否發生。

Selenium 自己不帶瀏覽器，它需要與第三方瀏覽器結合在一起使用。例如，可以在實驗樓桌面上的 Firefox 瀏覽器上運行 Selenium，可以直接看到一個 FireFox 窗口被打開，進入網站，然后執行你在代碼中設置的動作。雖然使用 Firefox 瀏覽器看起來更清楚，但在本實驗中我們采用 PhantomJS來代替真實的瀏覽器結合使用。

安裝

可以通過 PyPI網站下載Selenium庫，也可以通過第三方管理器（像 pip3 ）用命令行下載安裝：

sudo pip3 install selenium

測試是否都安裝成功：

2.4 PhantomJS 簡介

一個無頭的瀏覽器，PhantomJS 會把網站加載到內存并執行頁面上的 JavaScript，但是不會向用戶展示網頁的圖形化界面，可以用來處理 cookie、JavaScript 及 header 信息，以及任何你需要瀏覽器協助完成的事情。

安裝

PhantomJS 也可以從他的官方網站下載。因為 PhantomJS 是一個功能完善的瀏覽器，并非一個 Python 庫，所以他不需要像 Python 的其他庫一樣安裝，也不能用 pip 安裝。

實驗樓的環境是 Ubuntu，可以通過 apt-get 進行安裝：

sudo apt-get install phantomjs

2.5 Ajax 信息加載

現在有很多頁面都是采用 Ajax 加載數據，我們即將實驗的目標網址也是這樣的，如果我們用傳統的方法采集樣的頁面，只能獲取加載前的頁面，而我們真正需要的信息（ Ajax 執行之后的頁面）卻抓不到，后續實驗中可以看到效果的區別。

三、項目實現

本項目的詳細教程、完整代碼及demo測試，可在實驗樓中查看并在線完成。
更多Python經典項目：Python全部-課程

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/38114.html

爬蟲 - 收藏集 - 掘金

摘要：在這之前，還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。爬蟲修煉之道——從網頁中提取結構化數據并保存（以爬取糗百文本板塊所有糗事為例） - 后端 - 掘金歡迎大家關注我的專題：爬蟲修煉之道上篇爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲，如何將相對URL轉為絕對URL，如何限速，...

1fe1se 2019-07-31 10:58 評論0 收藏0
python

Python裝飾器為什么難理解？無論項目中還是面試都離不開裝飾器話題，裝飾器的強大在于它能夠在不修改原有業務邏輯的情況下對代碼進行擴展，權限校驗、用戶認證、日志記錄、性能測試、事務處理、緩存等都是裝飾器的絕佳應用場景，它能夠最大程度地對代碼進行復用。但為什么初學者對裝飾器的理解如此困難，我認為本質上是對Py… Python 實現車牌定位及分割作者用 Python 實現車牌定位及分割的實踐。 ...

chenatu 2019-07-30 15:35 評論0 收藏0
scrapy抓取淘寶女郎

摘要：抓取淘寶女郎準備工作首先在淘寶女郎的首頁這里查看，當然想要爬取更多的話，當然這里要查看翻頁的不過這操蛋的地方就是這里的翻頁是使用加載的，這個就有點尷尬了，找了好久沒有找到，這里如果有朋友知道怎樣翻頁的話，麻煩告訴我一聲，謝謝了，不過就這樣坐 scrapy抓取淘寶女郎準備工作首先在淘寶女郎的首頁這里查看，當然想要爬取更多的話，當然這里要查看翻頁的url,不過這操蛋的地方就是這里的...

zhoutao 2019-07-31 10:55 評論0 收藏0
python爬蟲實踐: 豆瓣小組命令行客戶端

摘要：主要特性前一陣重新組織了一下代碼加了命令行信息用起來更方便了一些初步實現了豆瓣小組及用戶相關的爬蟲和請求基于和沒有用高階的諸如之類的爬蟲工具所有的命令行輸出都是標準的格式可以使用操作安裝僅支持使用兩種命令模式客戶端接口調用和豆瓣模塊接口主要特性前一陣重新組織了一下代碼, 加了命令行help信息, 用起來更方便了一些初步實現了豆瓣小組及用戶相關的API爬蟲和請求基于reques...

golden_hamster 2019-07-30 17:21 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0