国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python爬蟲理論之cookie驗證,不回顧下歷史,套路都不知道怎么來的!

fuyi501 / 3643人閱讀

摘要:在發明之初,為了幫助服務器同步網頁上的用戶信息,同時保存用戶操作,以此減輕服務器壓力。由正在瀏覽的網站創建的被稱為第一方。這些第三方怎么來的呢他們又有什么作用了。寫在最后了解歷史,有助于,我們更好的定位問題。

cookie在發明之初,為了幫助服務器同步網頁上的用戶信息,同時保存用戶操作,以此減輕服務器壓力。

沒有cookie之前,人們還停留在像電視一樣只能對網頁進行點播,網站分辨不出是誰在通信。

題外話:第一代密碼,屬于通用性的密鑰

有了cookie后,你就那個網頁做交互了,這時才有了網站賬號。

由正在瀏覽的網站創建的cookie被稱為第一方cookie。

這個東西很重要,你要是不信邪,把這種第一方cookie給禁止了,

那么,恭喜你,回到了廣播時代。

Python requests庫默認是打開了cookie的。

– 檢查cookie

import requestsfrom requests.cookies import RequestsCookieJarheaders = {    "Host": "accounts.douban.com",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36",    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",    "Accept-Encoding": "gzip, deflate, br",    "Connection": "keep-alive"           }request_url = "https://accounts.douban.com/passport/login"res = requests.get(request_url, headers=headers)status_code = res.status_coderes_header = res.headersres_cookies = res.cookiescookie1111 = res.cookies.get_dict()                             # 格式化 字典形式輸出cookie2222 = requests.utils.dict_from_cookiejar(res_cookies)    # 格式化 字典形式輸出for cookie in res_cookies:    print(cookie.name+"/t"+cookie.value)print("響應狀態碼:", status_code)print("響應請求請求頭:", res_header)print("響應cookies:", res_cookies)print("格式化cookie1111 :", cookie1111)print("格式化cookie2222 :", cookie2222)

– 到這里自帶cookie說明白了!

接下來,我們引入一個概念 第三方cookie

使用空瀏覽器來看下效果。

清除瀏覽器cookie記錄,也可以進行模擬。

進入一個網站csdn.net,

然后點擊網頁地址欄左側的那個小鎖就能看到這些信息。

正在訪問的csdn.net以外

還有來自其它40個cookie,這些在你訪問的網址之外的域名,創建的cookie就被稱作,作為第三方cookie。

這些第三方cookie怎么來的呢?他們又有什么作用了。

你通過進入csdn.com,這個網站就訪問了baidu.com的服務器了。

咱們按下F12進入瀏覽器的開發者模式中,觀察一下網絡結構。

仔細查看一下這個網站的加載,我們可以在它的目錄中發現baidu.com來源,他使用了baidu.com提供的功能,編寫進了自己的網站代碼中。

– 我們在訪問這個網站的過程中,也同時使用了百度為你提供的服務,那么這個服務是什么呢?


# 不得不提cookie的另外一個作用! ## 除了可以綁定網頁和用戶的身份,還可以記錄網頁的瀏覽歷史。 ### 這樣就給 ==廣告提供商== 機會,使用不同的代碼模塊,嵌入到不同的網站中,以此實行產品推薦。 ### 第三方cookie,它默默的,把你的喜好記錄下來,在你進入其他網站時,再通過讀取之前已經記錄好的信息,這樣就能對你進行個性化廣告推薦。

禁用第三方cookie是不是就沒有廣告了?

這也是爬蟲遇到最多的情況。

手動模擬一下,禁用第三方cookie,會發現 驗證碼 輸入次數開始變得頻繁了。

鑒于此,爬蟲產生了另外一個工具selenium。

寫在最后

1.了解歷史,有助于,我們更好的定位問題。

2.很多博主只告訴你們,第二次爬去的時候需要攜帶cookie,對第三方cookie只字不提

import requestscookies="從網上復制的cookie值"cookies_dict={}for i in cookies.split("; "):   cookies_dict[i.splict("=")[0]] = i.splict("=")[1]html=requests.get(url="",cookies=cookies_dict}

3.更高級的工具,學習,使用。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/119407.html

相關文章

  • 知乎最新版模擬登陸詳解,小白也能懂

    摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內容僅交流學習,請勿用于非法用途 如果你現在想模擬登陸知乎,會發現 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...

    buildupchao 評論0 收藏0
  • 知乎最新版模擬登陸詳解,小白也能懂

    摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內容僅交流學習,請勿用于非法用途 如果你現在想模擬登陸知乎,會發現 fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...

    xuxueli 評論0 收藏0
  • 大話爬蟲的實踐技巧

    摘要:圖意淫爬蟲與反爬蟲間的對決數據的重要性如今已然是大數據時代,數據正在驅動著業務開發,驅動著運營手段,有了數據的支撐可以對用戶進行用戶畫像,個性化定制,數據可以指明方案設計和決策優化方向,所以互聯網產品的開發都是離不開對數據的收集和分析,數 showImg(https://segmentfault.com/img/remote/1460000013428119?w=539&h=337)...

    沈儉 評論0 收藏0
  • 大話爬蟲的基本套路

    摘要:有什么作用通過有效的爬蟲手段批量采集數據,可以降低人工成本,提高有效數據量,給予運營銷售的數據支撐,加快產品發展。因為信息是完全公開的,所以是合法的。 showImg(https://segmentfault.com/img/remote/1460000011359885?w=566&h=316);   什么是爬蟲? 網絡爬蟲也叫網絡蜘蛛,如果把互聯網比喻成一個蜘蛛網,那么蜘蛛就是在...

    Towers 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現在已經過去了年那些被我藏在收藏夾吃灰的文章,已經太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<