我用Python爬取了女神視界，爬蟲之路永無止境「內附源碼」

niuxiaowei111 發布于2021-11-11 16:55 / 2636人閱讀

摘要：我發現抖音上很多小姐姐就拍個跳舞的視頻就火了，大家是沖著舞蹈水平去的嗎，都是沖著顏值身材去的，能刷到這篇文章的都是了，我就跟大家不一樣了，一個個刷太麻煩了，我直接爬下來看個夠，先隨意展示兩個。

我發現抖音上很多小姐姐就拍個跳舞的視頻就火了，大家是沖著舞蹈水平去的嗎，都是沖著顏值身材去的，能刷到這篇文章的都是lsp了，我就跟大家不一樣了，一個個刷太麻煩了，我直接爬下來看個夠，先隨意展示兩個。

采集目標

爬取目標:女神世界

效果展示

工具使用

使用環境:Python3.7 工具:pycharm 第三方庫:requests, re, pyquery

爬蟲思路:

獲取的是視頻數據 (16進制字節)
在這個頁面沒有視頻地址需要進去詳情頁所有需要從視頻播放頁開始抓取

使用快捷鍵 F12 進入開發者控制臺:

先不急, 找到視頻地址去搜索他看看在哪里有包含:

定位他發現是靜態頁面返回的數據:

上代碼:

def Tools(url):# 封裝一個工具函數 用來做請求的    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"    }    response = requests.get(url, headers=headers)    return responseurl = "https://www.520mmtv.com/9614.html"response = Tools(url).textvideo_url = re.findall(r"url: "(.*?)",", response)[0] # 正則表達式提取 視頻地址video_content = Tools(video_url).content# 視頻地址存儲 需要在代碼同路徑 手動創建 短視頻文件夾with open("./短視頻/123.mp4", "ab") as f:    f.write(video_content)?# 下載了一個

def main():    url = "https://www.520mmtv.com/hd/rewu.html"    response = Tools(url).text    doc = pq(response) # 創建pyquery對象 注意根據css的 class 類選擇 和id選擇器進行數據提取    i_list = doc(".i_list.list_n2.cxudy-list-formatvideo a").items() # .類選擇器 中間有空格的 記得替換成.    meta_title = doc(".meta-title").items() # 標題    for i, t in zip(i_list, meta_title):        href = i.attr("href")        Play(t.text(), href)

全部代碼:

import requestsimport refrom pyquery import PyQuery as pqdef Tools(url):    headers = {        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52"    }    response = requests.get(url, headers=headers)    return responsedef Play(title, url):    # url = "https://www.520mmtv.com/9614.html"    response = Tools(url).text    video_url = re.findall(r"url: "(.*?)",", response)[0]    video_content = Tools(video_url).content    with open("./短視頻/{}.mp4".format(title), "ab") as f:        f.write(video_content)        print("{}下載完成....".format(title))def main():    url = "https://www.520mmtv.com/hd/rewu.html"    response = Tools(url).text    doc = pq(response) # 創建pyquery對象 注意根據css的 class 類選擇 和id選擇器進行數據提取    i_list = doc(".meta-title").items() # .類選擇器 中間有空格的 記得替換成.    meta_title = doc(".meta-title").items() # 標題    for i, t in zip(i_list, meta_title):        href = i.attr("href")        Play(t.text(), href)if __name__ == "__main__":    main()

下載比較慢網絡不好，你網快的話，就下載快。

效果:

GPU云服務器云服務器 python爬蟲源碼我用python python3爬蟲源碼爬蟲爬取數據

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/123091.html

我用Python爬取了五千張美女圖壁紙，每天一張忘記初戀！

摘要：愛美之心人皆有之，正所謂窈窕淑女君子好逑，美好敲代碼的一天從好看的桌面壁紙開始，好看的桌面壁紙從美女壁紙開始。大家好，我是辣條，這是我爬蟲系列的第26篇。愛美之心人皆有之，正所謂窈窕淑女君子好逑，美好敲代碼的一天從好看的桌面壁紙開始，好看的桌面壁紙從美女壁紙開始。今天給大家帶來福利啦，爬...

huaixiaoz 2021-09-26 09:55 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0
Python爬蟲實戰：1000圖庫大全【別輕易點進來】

摘要：大家好我是辣條。今天給大家帶來爬蟲實戰例之篇爬蟲之路永無止境。大家好，我是辣條。今天給大家帶來【爬蟲實戰100例】之41篇，爬蟲之路永無止境。爬取目標網址：尺度有點大，遭不住... 效果展示工具準備開發工具ÿ...

番茄西紅柿 2021-11-11 16:54 評論0 收藏2637
node.js 爬取招聘信息分析各職業錢途（爬蟲+動態IP代理+數據可視化分析）

摘要：成功爬取了拉鉤網上多個招聘崗位的具體信息后，數據可視化并得出分析結果如下從整體看，北上廣深杭這五個城市前端工程師招聘崗位，北京是遙遙領先，是深圳的兩倍，是廣州的三倍，其次到上海，深圳，杭州，廣州居末。前前言本文首發于 github blog 不想看爬蟲過程只想看職位錢途數據分析請看這里：前端招聘崗位分析C++招聘崗位分析JAVA招聘崗位分析PHP招聘崗位分析Python招聘崗位分析...

546669204 2019-08-22 15:57 評論0 收藏0

發表評論

登陸后可評論

0條評論

niuxiaowei111

男|高級講師

我要關注我要私信

TA的文章

Go語言核心36講（Go語言實戰與應用八）--學習筆記

閱讀 2181·2021-11-19 09:55
我用Python爬取了女神視界，爬蟲之路永無止境「內附源碼」

閱讀 2637·2021-11-11 16:55
Python表白代碼：太秀了，用過的人都找到了對象...【滿屏玫瑰盛開！】

閱讀 3174·2021-09-28 09:36
虛擬主機能承受多少ip-虛擬主機有什么優勢嗎？

閱讀 1945·2021-09-22 16:05
【譯】Vertical-Align: All You Need To Know

閱讀 3269·2019-08-30 15:53
上下高度固定（100px），中間自適應

閱讀 1805·2019-08-30 15:44
css選擇器和jQuery選擇器

閱讀 2898·2019-08-29 13:10
? Emoji ? - 收藏集 - 掘金

閱讀 1338·2019-08-29 12:30

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

我用Python爬取了女神視界，爬蟲之路永無止境「內附源碼」

采集目標

效果展示

工具使用

爬蟲思路:

上代碼:

全部代碼:

效果:

相關文章

**我用Python爬取了五千張美女圖壁紙，每天一張忘記初戀！**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python爬蟲實戰：1000圖庫大全【別輕易點進來】

node.js 爬取招聘信息分析各職業錢途（爬蟲+動態IP代理+數據可視化分析）

發表評論

0條評論

niuxiaowei111

男|高級講師

TA的文章

Go語言核心36講（Go語言實戰與應用八）--學習筆記