Python 爬蟲實戰（二）：使用 requests-html

honmaple 發布于2019-07-31 11:05 / 3034人閱讀

摘要：爬蟲實戰一使用和，我們使用了做網絡請求，拿到網頁數據再用解析，就在前不久，作者出了一個新庫，，它可以用于解析文檔的。是基于現有的框架等庫進行了二次封裝，更加方便開發者調用。參考今天用了一下庫爬蟲公眾號我的公眾號吳小龍同學，歡迎交流

Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一個新庫 requests-html，Pythonic HTML Parsing for Humans?，它可以用于解析 HTML 文檔的。requests-html 是基于現有的框架 PyQuery、Requests、lxml 等庫進行了二次封裝，更加方便開發者調用。

安裝

Mac：

pip3 install requests-html

Windows：

pip install requests-html

實例

代碼擼多了，讓我們看會妹紙，爬的網站我選的是 http://www.win4000.com/zt/xin... ，打開網站，觀察到這是個列表，圖片是縮略圖，要想保存圖片到本地，當然需要高清大圖，因此得進入列表詳情，進一步解析，完整代碼如下：

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析圖片列表
def get_girl_list():
    # 返回一個 response 對象
    response = session.get("http://www.win4000.com/zt/xinggan.html")  # 單位秒數

    content = response.html.find("div.Left_bar", first=True)

    li_list = content.find("li")

    for li in li_list:
        url = li.find("a", first=True).attrs["href"]
        get_girl_detail(url)


# 解析圖片詳細
def get_girl_detail(url):
    # 返回一個 response 對象
    response = session.get(url)  # 單位秒數
    content = response.html.find("div.scroll-img-cont", first=True)
    li_list = content.find("li")
    for li in li_list:
        img_url = li.find("img", first=True).attrs["data-original"]
        img_url = img_url[0:img_url.find("_")] + ".jpg"
        print(img_url + ".jpg")
        save_image(img_url)


# 保持大圖
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒級時間戳
    f = open("/Users/wuxiaolong/Desktop/Girl/%d.jpg" % t, "ab")  # 存儲圖片，多媒體文件需要參數b（二進制文件）
    f.write(img_response.content)  # 多媒體存儲content
    f.close()


if __name__ == "__main__":
    get_girl_list()

代碼就這么多，是不是感覺很簡單啊。

說明：

1、requests-html 與 BeautifulSoup 不同，可以直接通過標簽來 find，一般如下：
標簽
標簽.someClass
標簽#someID
標簽[target=_blank]
參數 first 是 True，表示只返回 Element 找到的第一個，更多使用：http://html.python-requests.org/ ；

2、這里保存本地路徑 /Users/wuxiaolong/Desktop/Girl/我寫死了，需要讀者改成自己的，如果直接是文件名，保存路徑將是項目目錄下。

遺留問題

示例所爬網站是分頁的，沒有做，可以定時循環來爬妹紙哦，有興趣的讀者自己玩下。

參考

requests-html

今天用了一下Requests-HTML庫（Python爬蟲）

公眾號

我的公眾號：吳小龍同學，歡迎交流～

云服務器 GPU云服務器 python爬蟲實戰 python3爬蟲實戰 python爬蟲使用代理ip 爬蟲實戰

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/44624.html

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
requests-html庫初識 + 無資料解BUG之 I/O error : encoder er

摘要：目標站點分析本次要采集的目標網站為，目標站點描述為全球名站。由于上述代碼太少了，完全不夠今日代碼量，我們順手將其修改為多線程形式。本篇博客是《爬蟲 120 例》的...

mozillazg 2021-09-07 09:59 評論0 收藏0
這個男人讓你的爬蟲開發效率提升8倍

摘要：提升倍雖是我胡謅的數據，開發效率的提升卻是杠杠滴。而卻不同，它提供了官方中文文檔，其中包括了很清晰的快速上手和詳盡的高級用法和接口指南。其他更多詳細內容不多說了，中文官網地址，順著看一遍，寫一遍，你就掌握這個爬蟲神器了。他叫 Kenneth Reitz。現就職于知名云服務提供商 DigitalOcean，曾是云計算平臺 Heroku 的 Python 架構師，目前 Github 上 ...

Jackwoo 2019-07-30 17:59 評論0 收藏0
零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
Python爬蟲學習路線

摘要：以下這些項目，你拿來學習學習練練手。當你每個步驟都能做到很優秀的時候，你應該考慮如何組合這四個步驟，使你的爬蟲達到效率最高，也就是所謂的爬蟲策略問題，爬蟲策略學習不是一朝一夕的事情，建議多看看一些比較優秀的爬蟲的設計方案，比如說。（一）如何學習Python 學習Python大致可以分為以下幾個階段： 1.剛上手的時候肯定是先過一遍Python最基本的知識，比如說：變量、數據結構、語法...

liaoyg8023 2019-07-31 10:27 評論0 收藏0