国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python爬蟲學習:微信、知乎、新浪等主流網站的模擬登陸爬取方法

Kahn / 2480人閱讀

摘要:微信知乎新浪等主流網站的模擬登陸爬取方法摘要微信知乎新浪等主流網站的模擬登陸爬取方法。先說說很難爬的知乎,假如我們想爬取知乎主頁的內容,就必須要先登陸才能爬,不然看不到這個界面。圖片描述知乎需要手機號才能注冊登陸。

微信、知乎、新浪等主流網站的模擬登陸爬取方法
摘要:微信、知乎、新浪等主流網站的模擬登陸爬取方法。

網絡上有形形色色的網站,不同類型的網站爬蟲策略不同,難易程度也不一樣。從是否需要登陸這方面來說,一些簡單網站不需要登陸就可以爬,比如之前爬過的貓眼電影、東方財富網等。有一些網站需要先登陸才能爬,比如知乎、微信等。這類網站在模擬登陸時需要處理驗證碼、js 加密參數這些問題,爬取難度會大很多。費很大力氣登陸進去后才能爬取想要的內容,很花時間。

是不是一定要自己動手去實現每一個網站的模擬登陸方法呢,從效率上來講,其實大可不必,已經有前人替我們造好輪子了。

最近發(fā)現一個神庫,匯總了數十個主流網站的模擬登陸方法:

知乎
微信網頁版登錄并獲取好友列表
Bilibili
Facebook
無需身份驗證即可抓取Twitter前端API
微博網頁版
QQZone
CSDN
淘寶
Baidu
果殼
JingDong 模擬登錄
163mail
拉鉤
豆瓣
Baidu2
獵聘網
Github
爬取圖蟲相應的圖片
網易云音樂
糗事百科
這些網站基本采用的是直接登錄或者 selenium+webdriver 方式。每一個網站都有完整的模擬登陸代碼,拿來就可以用到自己的爬蟲中。

下面我們來測試一下。

先說說很難爬的「知乎」,假如我們想爬取知乎主頁的 HTML 內容,就必須要先登陸才能爬,不然看不到這個界面。下面來簡單梳理一下流程。

圖片描述

知乎需要手機號才能注冊登陸。為了方便測試,可以隨便找個手機號,手機號到哪兒去找呢,兩個神網站保護你的隱私 這篇文章里介紹了一個免費電話號碼網站,用上面的手機號可以成功注冊。

圖片描述

順利登錄后就可以進入主頁了。

下面,我們用這個庫提供的代碼來模擬登陸,輸出主頁 HTML 內容作測試。操作很簡單,只需要輸入手機號、密碼和驗證碼就可以了。

成功登陸后,接下來就可以做一些有意思的事了。比如曾有人爬取所有知乎賬號的信息,分析了知乎用戶群體畫像。

是不是有點意思。

再來看看微信。用上面的微信代碼可以把全部微信好友信息爬取下來,比如:昵稱、性別、地域、個性簽名。接著可以分析一下你的朋友圈是什么樣的,應該會很有趣。


還可以爬 B 站:


還可以爬鏈家租房信息:


還有很多實用有趣的內容,就不一一羅列了,感興趣的話可以試試。不要悶頭造輪子,多抬抬頭會發(fā)現你在做/想做的東西,別人早已經弄好了,拿來用或者參考學習都是件好事。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43908.html

相關文章

  • 首次公開,整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • 23個Python爬蟲開源項目代碼,包含微信、淘寶、豆瓣、知乎、微博

    摘要:今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...

    jlanglang 評論0 收藏0
  • Python入門網絡爬蟲之精華版

    摘要:學習網絡爬蟲主要分個大的版塊抓取,分析,存儲另外,比較常用的爬蟲框架,這里最后也詳細介紹一下。網絡爬蟲要做的,簡單來說,就是實現瀏覽器的功能。 Python學習網絡爬蟲主要分3個大的版塊:抓取,分析,存儲 另外,比較常用的爬蟲框架Scrapy,這里最后也詳細介紹一下。 首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲需要的基本概念和技巧:寧哥的小站-網絡爬蟲,當我們在瀏覽器中輸入...

    Bmob 評論0 收藏0
  • 零基礎如何學爬蟲技術

    摘要:楚江數據是專業(yè)的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發(fā)服務,服務范圍涵蓋社交網絡電子商務分類信息學術研究等。 楚江數據是專業(yè)的互聯網數據技術服務,現整理出零基礎如何學爬蟲技術以供學習,http://www.chujiangdata.com。 第一:Python爬蟲學習系列教程(來源于某博主:htt...

    KunMinX 評論0 收藏0
  • python

    Python裝飾器為什么難理解? 無論項目中還是面試都離不開裝飾器話題,裝飾器的強大在于它能夠在不修改原有業(yè)務邏輯的情況下對代碼進行擴展,權限校驗、用戶認證、日志記錄、性能測試、事務處理、緩存等都是裝飾器的絕佳應用場景,它能夠最大程度地對代碼進行復用。 但為什么初學者對裝飾器的理解如此困難,我認為本質上是對Py… Python 實現車牌定位及分割 作者用 Python 實現車牌定位及分割的實踐。 ...

    chenatu 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<