楚江數據：建立爬蟲代理ip池

imingyu 發布于2019-07-25 11:37 / 1079人閱讀

摘要：所以建立并維護好一個有效的代理池也是爬蟲的一個準備工作。網上提供免費代理的網址很多，下面我們以西刺網站為例來建立一個有效的代理池。

在爬取網站信息的過程中，有些網站為了防止爬蟲，可能會限制每個ip的訪問速度或訪問次數。對于限制訪問速度的情況，我們可以通過time.sleep進行短暫休眠后再次爬取。對于限制ip訪問次數的時候我們需要通過代理ip輪換去訪問目標網址。所以建立并維護好一個有效的代理ip池也是爬蟲的一個準備工作。
網上提供免費代理ip的網址很多，下面我們以西刺網站為例來建立一個有效的代理ip池。
項目流程：

第一步：構造請求代理ip網站鏈接
def get_url(url): # 國內高匿代理的鏈接 url_list = [] for i in range(1,100): url_new = url + str(i) url_list.append(url_new) return url_list
get_url ：生成要爬取目標網址的鏈接
第二步：獲取網頁內容
def get_content(url): # 獲取網頁內容 user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0" headers = {"User-Agent": user_agent} req = urllib.request.Request(url=url, headers=headers) res = urllib.request.urlopen(req) content = res.read() return content.decode("utf-8")
get_content：接受的參數是傳入的目標網站鏈接
第三步：提取網頁中ip地址和端口號信息
def get_info(content): # 提取網頁信息 / ip 端口 datas_ip = etree.HTML(content).xpath("http://table[contains(@id,"ip_list")]/tr/td[2]/text()") datas_port = etree.HTML(content).xpath("http://table[contains(@id,"ip_list")]/tr/td[3]/text()") with open("data.txt", "w") as fd: for i in range(0,len(datas_ip)): out = u"" out += u"" + datas_ip[i] out += u":" + datas_port[i] fd.write(out + u"n") # 所有ip和端口號寫入data文件
get_info：接收從get_content函數傳來的網頁內容，并使用etree解析出ip和端口號，將端口號和ip寫入data.
第四步：驗證代理ip的有效性
def verif_ip(ip,port): # 驗證ip有效性 user_agent ="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0" headers = {"User-Agent":user_agent} proxy = {"http":"http://%s:%s"%(ip,port)} print(proxy) proxy_handler = urllib.request.ProxyHandler(proxy) opener = urllib.request.build_opener(proxy_handler) urllib.request.install_opener(opener) test_url = "https://www.baidu.com/" req = urllib.request.Request(url=test_url,headers=headers) time.sleep(6) try: res = urllib.request.urlopen(req) time.sleep(3) content = res.read() if content: print("that is ok") with open("data2.txt", "a") as fd: # 有效ip保存到data2文件夾 fd.write(ip + u":" + port) fd.write("n") else: print("its not ok") except urllib.request.URLError as e: print(e.reason)
verif_ip：使用ProxyHandler建立代理，使用代理ip訪問某網址，查看是否得到響應。如數據有效，則保存到data2.txt文件
最后：調用各個函數
if name == "__main__": url = "http://www.xicidaili.com/nn/" url_list = get_url(url) for i in url_list: print(i) content = get_content(i) time.sleep(3) get_info(content) with open("dali.txt", "r") as fd: datas = fd.readlines() for data in datas: print(data.split(u":")[0]) # print("%d : %d"%(out[0],out[1])) verif_ip(data.split(u":")[0],data.split(u":")[1])
得到爬取結果

【楚江數據】團隊提供網站、手機APP(包括電商、社交網站、公眾號、論壇及客戶提供的其他類型)爬蟲定制開發和數據(文本、圖片、電話郵箱、文檔等)批量采集服務。不用學編程，不用寫代碼，我們直接交付采集好的數據或者編寫好的程序。
微信：p02721606
官方網站http://www.chujiangdata.com

轉載知乎；

云服務器 GPU云服務器 python爬蟲ip代理池 python爬蟲代理池爬蟲ip池搭建代理服務器 ip地址池

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/38514.html

Python入門網絡爬蟲之精華版

摘要：學習網絡爬蟲主要分個大的版塊抓取，分析，存儲另外，比較常用的爬蟲框架，這里最后也詳細介紹一下。網絡爬蟲要做的，簡單來說，就是實現瀏覽器的功能。 Python學習網絡爬蟲主要分3個大的版塊：抓取，分析，存儲另外，比較常用的爬蟲框架Scrapy，這里最后也詳細介紹一下。首先列舉一下本人總結的相關文章，這些覆蓋了入門網絡爬蟲需要的基本概念和技巧：寧哥的小站-網絡爬蟲,當我們在瀏覽器中輸入...

Bmob 2019-07-25 11:34 評論0 收藏0
面向對象的分布式爬蟲框架XXL-CRAWLER

摘要：面向對象的分布式爬蟲框架一簡介概述是一個面向對象的分布式爬蟲框架。分布式集群集群方式維護爬蟲爬蟲運行數據，可通過或定制實現。《面向對象的分布式爬蟲框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...

anquan 2019-08-15 12:27 評論0 收藏0
多線程+代理池爬取天天基金網、股票數據(無需使用爬蟲框架)

摘要：本次使用天天基金網進行爬蟲，該網站具有反爬機制，同時數量足夠大，多線程效果較為明顯。技術路線代理池多線程爬蟲與反爬編寫思路首先，開始分析天天基金網的一些數據。一旦使用多線程，則需要考慮到數據的讀寫順序問題。 @[TOC] 簡介提到爬蟲，大部分人都會想到使用Scrapy工具，但是僅僅停留在會使用的階段。為了增加對爬蟲機制的理解，我們可以手動實現多線程的爬蟲過程，同時，引入IP代理池進行...

jaysun 2019-07-31 10:14 評論0 收藏0
MongoDB 4.0 Python3.7 穩定高效的評分制IP代理池APIserver

摘要：項目的主要運行部分，采集器驗證器打分檢測等功能實現的模塊。在中可以配置異步的并發量等來控制驗證器。調用有了穩定的高分代理數據，那么就可以掛起一個為我們的爬蟲保駕護航，這一部分可以單獨拿出來編寫，使用其他框架之類的都是不錯的選擇。 FooProxy 穩健高效的評分制 IP代理池 + API服務提供，可以自己插入采集器進行代理IP的爬取，支持 MongoDB 4.0 使用 Python3....

wangjuntytl 2019-06-26 17:50 評論0 收藏0
MongoDB 4.0 Python3.7 穩定高效的評分制IP代理池APIserver

摘要：項目的主要運行部分，采集器驗證器打分檢測等功能實現的模塊。在中可以配置異步的并發量等來控制驗證器。調用有了穩定的高分代理數據，那么就可以掛起一個為我們的爬蟲保駕護航，這一部分可以單獨拿出來編寫，使用其他框架之類的都是不錯的選擇。 FooProxy 穩健高效的評分制 IP代理池 + API服務提供，可以自己插入采集器進行代理IP的爬取，支持 MongoDB 4.0 使用 Python3....

AndroidTraveler 2019-07-30 18:05 評論0 收藏0