摘要:二準備工作環境開發工具模塊三分析網站進入網址,需要登錄因此我們需要手動登錄后,然后看到已經有了因此我們直接在請求的時候攜帶自己的,如果我們登陸后,可以看到自己的用戶名四代碼編寫請求,跳過驗證不愿透露姓名網友有效無效成功
提前聲明:該專欄涉及的所有案例均為學習使用,如有侵權,請聯系本人刪帖!
對于一些網站,我們在抓取時候需要補充請求頭requests headers
Host: www.renren.comProxy-Connection: keep-alivePragma: no-cacheCache-Control: no-cacheUpgrade-Insecure-Requests: 1User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400Accept: text/htmlAccept-Encoding: gzip, deflateAccept-Language: zh-CN,zh;q=0.9Cookie: ***
但是對于一些網站,我們如果不登錄,那么我們就無法進入網站內部,因此就需要登錄,那么登錄后,我們就可以獲取到cookie值,而有了cookie值,我們就可以進入網站,抓取想要的信息。
網站:https://codechina.csdn.net/explore/welcome
進入網址,需要登錄
因此我們需要手動登錄后,然后看到已經有了cookie
因此我們直接在請求的時候攜帶自己的cookie,如果我們登陸后,可以看到自己的用戶名
# -*- coding: utf-8 -*-import requestsurl = "https://codechina.csdn.net/explore/welcome"headers = { "Cookie": "...", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36"}# 請求,verify=False 跳過ssl驗證response = requests.get(url, headers=headers, verify=False)response.encoding = "utf-8"if "不愿透露姓名の網友" in response.text: print("cookie有效")else: print("cookie無效")
成功!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/122373.html
摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...
摘要:方法不僅適用于百度云,別的一些比較難以模擬登陸的網站都可以按照這種方式分析。本文要求讀者具有模擬登陸主要是抓包和閱讀代碼和密碼學的基本知識。和模擬登陸微博的分析流程一樣,我們首先要做的是以正常人的流程完整的登錄一遍百度網盤。 這是第二篇從簡書搬運過來的文章(大家別誤會,是我原創的)。因為前一篇文章,我看反響還挺好的,所以把這篇也搬運過來了,其實目的還是為宣傳自己的分布式微博爬蟲(該項目...
摘要:提前聲明該專欄涉及的所有案例均為學習使用,如有侵權,請聯系本人刪帖文章目錄一前言二網站分析三編寫面向對象代碼四多線程代碼一前言在這里插入圖片描述在傳送門自己爬取過的個基礎爬蟲案例這個案例中,我們講解過對騰訊招聘信息的 ...
摘要:耗時代碼運行到這句之后觸發隱式等待,在輪詢檢查后仍然沒有定位到元素,拋出異常。耗時值得一提的是,對于定位不到元素的時候,從耗時方面隱式等待和強制等待沒什么區別。 ...
摘要:爬蟲架構架構組成管理器管理待爬取的集合和已爬取的集合,傳送待爬取的給網頁下載器。網頁下載器爬取對應的網頁,存儲成字符串,傳送給網頁解析器。從文檔中獲取所有文字內容正則匹配后記爬蟲基礎知識,至此足夠,接下來,在實戰中學習更高級的知識。 前言 Python非常適合用來開發網頁爬蟲,理由如下:1、抓取網頁本身的接口相比與其他靜態編程語言,如java,c#,c++,python抓取網頁文檔的接...
閱讀 3241·2021-10-13 09:39
閱讀 2007·2021-09-27 13:36
閱讀 3069·2021-09-22 16:02
閱讀 2593·2021-09-10 10:51
閱讀 1574·2019-08-29 17:15
閱讀 1528·2019-08-29 16:14
閱讀 3494·2019-08-26 11:55
閱讀 2543·2019-08-26 11:50