摘要:項目簡介本實驗通過使用實現一個淘寶女郎圖片收集爬蟲,學習并實踐及正則表達式等知識。本教程由阿發布在實驗樓,完整教程及在線練習地址實現淘女郎照片爬蟲,可以直接在教程中下載代碼使用。
項目簡介:本實驗通過使用 Python 實現一個淘寶女郎圖片收集爬蟲,學習并實踐 BeautifulSoup、Selenium Webdriver 及正則表達式等知識。
本教程由阿treee發布在實驗樓,完整教程及在線練習地址:Python3 實現淘女郎照片爬蟲,可以直接在教程中下載代碼使用demo。
一、實驗說明 1.1 實驗介紹本項目通過使用 Python 實現一個淘女郎圖片收集爬蟲,學習并實踐 BeautifulSoup、Selenium Webdriver 及正則表達式等知識。在項目開發過程中采用瀑布流開發模型。
1.2 知識點本項目中將會學習并實踐以下知識點:
Python3 編程
使用 BeautifulSoup 解析 HTML 頁面
使用 Selenium Webdriver 爬取 Web 頁面
使用正則表達式提取所需的關鍵信息
1.3 實驗效果首先我們要爬取的目標頁面如下:
爬取后的目錄結構如下:
每個目錄中都有一系列的圖片:
二、基礎工具本節主要介紹和安裝項目中將用到的幾個基礎工具。本實驗使用實驗樓的環境開發,中間部分步驟在不同版本的 Linux 環境下會有不同。
2.1 安裝 pip3首先,由于使用的工具都需要通過 pip3 進行安裝,實驗樓的環境中沒有安裝 pip3,所以需要先將pip3準備好。
打開桌面上的 Xfce 終端,輸入下面的命令安裝 pip3:
sudo apt-get update sudo apt-get install python3-pip2.2 安裝 BeatifulSoup 簡介
BeautifulSoup 庫的名字取自劉易斯·卡羅爾在《愛麗絲夢游仙境》里的同名歌詞。就像故事中他在仙境中的說法一樣,BeautifulSoup 試圖化平淡為神奇。它通過定位 HTML 標簽來去格式化和組織復雜的網絡信息,用簡單易用的 Python 對象為我們展現 XML 結構信息。
安裝由于這次實驗是在 python3.X 版本以上的所以,將拓展庫安裝到特定的庫中使用 pip3,從而安裝到 python3 的系統目錄中,仍然是在實驗樓中的 Xfce 終端執行命令:
sudo pip3 install Beautifulsoup4
BeautifulSoup4 是現今的最新版本,也是接下來重點使用的工具。
2.3 Selenium 簡介Selenium 是一個強大的網絡數據采集工具,最初是為網站自動化測試而開發的。近幾年,他還被廣泛用于獲取精確的網站快照,因為他們可以直接運行在瀏覽器上。Selenium 可以讓瀏覽器自動加載頁面,獲取需要的數據,甚至頁面截屏,或者判斷網站上某些動作上是否發生。
Selenium 自己不帶瀏覽器,它需要與第三方瀏覽器結合在一起使用。例如,可以在實驗樓桌面上的 Firefox 瀏覽器上運行 Selenium,可以直接看到一個 FireFox 窗口被打開,進入網站,然后執行你在代碼中設置的動作。雖然使用 Firefox 瀏覽器看起來更清楚,但在本實驗中我們采用 PhantomJS來代替真實的瀏覽器結合使用。
安裝可以通過 PyPI網站 下載Selenium庫,也可以通過第三方管理器(像 pip3 )用命令行下載安裝:
sudo pip3 install selenium
測試是否都安裝成功:
2.4 PhantomJS 簡介一個 無頭 的瀏覽器,PhantomJS 會把網站加載到內存并執行頁面上的 JavaScript,但是不會向用戶展示網頁的圖形化界面,可以用來處理 cookie、JavaScript 及 header 信息,以及任何你需要瀏覽器協助完成的事情。
安裝PhantomJS 也可以從他的 官方網站下載。因為 PhantomJS 是一個功能完善的瀏覽器,并非一個 Python 庫,所以他不需要像 Python 的其他庫一樣安裝,也不能用 pip 安裝。
實驗樓的環境是 Ubuntu,可以通過 apt-get 進行安裝:
sudo apt-get install phantomjs2.5 Ajax 信息加載
現在有很多頁面都是采用 Ajax 加載數據,我們即將實驗的目標網址也是這樣的,如果我們用傳統的方法采集樣的頁面,只能獲取加載前的頁面,而我們真正需要的信息( Ajax 執行之后的頁面)卻抓不到,后續實驗中可以看到效果的區別。
三、項目實現本項目的詳細教程、完整代碼及demo測試,可在實驗樓中查看并在線完成。
更多Python經典項目:Python全部-課程
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/38114.html
摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。 爬蟲修煉之道——從網頁中提取結構化數據并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲,如何將相對URL轉為絕對URL,如何限速,...
摘要:抓取淘寶女郎準備工作首先在淘寶女郎的首頁這里查看,當然想要爬取更多的話,當然這里要查看翻頁的不過這操蛋的地方就是這里的翻頁是使用加載的,這個就有點尷尬了,找了好久沒有找到,這里如果有朋友知道怎樣翻頁的話,麻煩告訴我一聲,謝謝了,不過就這樣坐 scrapy抓取淘寶女郎 準備工作 首先在淘寶女郎的首頁這里查看,當然想要爬取更多的話,當然這里要查看翻頁的url,不過這操蛋的地方就是這里的...
摘要:主要特性前一陣重新組織了一下代碼加了命令行信息用起來更方便了一些初步實現了豆瓣小組及用戶相關的爬蟲和請求基于和沒有用高階的諸如之類的爬蟲工具所有的命令行輸出都是標準的格式可以使用操作安裝僅支持使用兩種命令模式客戶端接口調用和豆瓣模塊接口 主要特性 前一陣重新組織了一下代碼, 加了命令行help信息, 用起來更方便了一些 初步實現了豆瓣小組及用戶相關的API爬蟲和請求 基于reques...
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
閱讀 3142·2021-10-08 10:04
閱讀 1080·2021-09-30 09:48
閱讀 3449·2021-09-22 10:53
閱讀 1664·2021-09-10 11:22
閱讀 1682·2021-09-06 15:00
閱讀 2142·2019-08-30 15:56
閱讀 704·2019-08-30 15:53
閱讀 2273·2019-08-30 13:04