Python爬蟲之urllib示例

mylxsw 發布于2019-07-30 16:27 / 1755人閱讀

摘要：最簡單直接抓取頁面代碼使用構造一個對象，推薦發送數據，張三發送數據，張三發送數據和張三

1、最簡單：直接抓取頁面代碼

import urllib.request
import urllib.error

url = "http://test.com/test.html"
try:
    resp = urllib.request.urlopen(url)
except urllib.error.HTTPError as e:
    print(e.code, e.msg)
except urllib.error.URLError as e:
    print(e.reason)
else:
    result = resp.read().decode("utf-8")
    print(result)

2、使用 Request

import urllib.request
import urllib.error

url = "http://test.com/test.html"
try:
    req = urllib.request.Request(url)  # 構造一個Request對象，推薦
    resp = urllib.request.urlopen(req)
except urllib.error.HTTPError as e:
    print(e.code, e.msg)
except urllib.error.URLError as e:
    print(e.reason)
else:
    result = resp.read().decode("utf-8")
    print(result)

3、發送數據，GET

import urlib.request
import urllib.parse

url = "http://test.com/a.php?act=login&id=123"
req = urllib.request.Request(url)
resp = urllib.request.urlopen(req)

# or

url = "http://test.com/a.php"
params = {
    "act": "login",
    "id": 123,
    "name": u"張三"
}
geturl = url + "?" + urllib.parse.urlencode(params)
req = urllib.request.Request(geturl)
resp = urllib.request.urlopen(req)

print(resp.read().decode("utf-8"))
# {"act":"login","name":"u5f20u4e09","id":"123"}

4、發送數據，POST

import urllib.request
import urllib.parse

url = "http://test.com/a.php"
params = {
    "act": "login",
    "login[name]": u"張三",
    "login[password]": "123456"
}
data = urllib.parse.urlencode(params).encode("utf-8")

req = urllib.request.Request(url, data)
resp = urllib.request.urlopen(req)

print(resp.read().decode("utf-8"))
# {"act":"login","login":{"password":"123456","name":"u5f20u4e09"}}}

5、發送數據和header

import urllib.request
import urllib.parse

url = "http://test.com/a.php"
params = {
    "act": "login",
    "login[name]": u"張三",
    "login[password]": "123456"
}
data = urllib.parse.urlencode(params).encode("utf-8")

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/54.0.2840.99 Safari/537.36",
    "Referer": "http://www.baidu.com",
    "haha": "xixi"
}

req = urllib.request.Request(url, data, headers)
resp = urllib.request.urlopen(req)

print(resp.read().decode("utf-8"))

GPU云服務器云服務器 python爬蟲示例 scrapy爬蟲示例 python示例 python代碼示例

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/41688.html

零基礎如何學爬蟲技術

摘要：楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，。本文來源知乎作者路人甲鏈接楚江數據提供網站數據采集和爬蟲軟件定制開發服務，服務范圍涵蓋社交網絡電子商務分類信息學術研究等。楚江數據是專業的互聯網數據技術服務，現整理出零基礎如何學爬蟲技術以供學習，http://www.chujiangdata.com。第一：Python爬蟲學習系列教程（來源于某博主：htt...

KunMinX 2019-07-25 11:29 評論0 收藏0
Python爬蟲之多線程下載程序類電子書

摘要：其頁面如下那么我們是否可以通過來制作爬蟲來幫助我們實現自動下載這些電子書呢答案是筆者在空閑時間寫了一個爬蟲，主要利用函數和多線程來下載這些電子書。 ??近段時間，筆者發現一個神奇的網站：http://www.allitebooks.com/ ，該網站提供了大量免費的編程方面的電子書，是技術愛好者們的福音。其頁面如下： showImg(https://segmentfault.com/i...

walterrwu 2019-07-30 16:47 評論0 收藏0
Python入門網絡爬蟲之精華版

摘要：學習網絡爬蟲主要分個大的版塊抓取，分析，存儲另外，比較常用的爬蟲框架，這里最后也詳細介紹一下。網絡爬蟲要做的，簡單來說，就是實現瀏覽器的功能。 Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲另外，比較常用的爬蟲框架Scrapy，這里最后也詳細介紹一下。首先列舉一下本人總結的相關文章，這些覆蓋了入門網絡爬蟲需要的基本概念和技巧：寧哥的小站-網絡爬蟲,當我們在瀏覽器中輸入...

Bmob 2019-07-25 11:34 評論0 收藏0
【爬蟲系列之二】python基礎知識的了解

摘要：數據傳送上面介紹了參數，這里就是將需要的參數通過方式傳入上述代碼引入了庫，現在我們模擬登陸京東商場，但是應該是無法登陸的，一般都是需要設置一些頭部的工作，或者其它的參數，這里使用了庫對參數，進行一下。了解了前面的環境搭建，以及python的基礎知識的學習，咱們接下來學習一下，如何將網頁扒下來一、案例介紹當我們打開瀏覽器，打開頁面，看到的是好看的頁面，但是其實是由瀏覽器解釋才呈現...

SHERlocked93 2019-07-30 16:50 評論0 收藏0
python爬蟲之ajax請求

摘要：爬蟲之請求爬取豆瓣網的分頁瀏覽請求請輸入想要第幾頁的數據構建參數將字典轉化為修改肯德基配送信息請求請輸入要查詢的城市請輸入要查詢第幾頁請輸入要多少個 python爬蟲之ajax請求爬取豆瓣網的分頁瀏覽get請求： import urllib.request import urllib.parse url = https://movie.douban.com/j/chart/top...

崔曉明 2019-07-30 17:20 評論0 收藏0