基于Redis的簡單分布式爬蟲

zqhxuyuan 發(fā)布于2019-07-25 11:43 / 2209人閱讀

摘要：建議先大概瀏覽一下項目結(jié)構(gòu)項目介紹新手向，基于構(gòu)建的分布式爬蟲。以爬取考研網(wǎng)的貼子為例，利用進行解析，將符合要求的文章文本存入數(shù)據(jù)庫中。項目地址有任何問題可以與我聯(lián)系微信

Ugly-Distributed-Crawler

建議先大概瀏覽一下項目結(jié)構(gòu)

項目介紹

新手向，基于Redis構(gòu)建的分布式爬蟲。
以爬取考研網(wǎng)的貼子為例，利用 PyQuery, lxml 進行解析，將符合要求的文章文本存入MySQ數(shù)據(jù)庫中。

結(jié)構(gòu)簡介 cooperator

協(xié)作模塊，用于為Master&Worker模塊提供代理IP支持

master

提取滿足條件的文章url，并交給Worker進一步處理

worker

解析文章內(nèi)容，將符合要求的存入數(shù)據(jù)庫

環(huán)境依賴

sqlalchemy => 1.0.13
pyquery => 1.2.17
requests => 2.12.3
redis => 2.10.5
lxml => 3.6.0


需要預(yù)先安裝MySQL-server 和 Redis-server.

MySQL中應(yīng)有名為kybsrc的數(shù)據(jù)庫，且該數(shù)據(jù)庫包含一個名為posts的表，擁有num(INT AUTO_INCREMENT)和post(TEXT)兩個字段。

如何啟動 0. 先配置好各模塊所引用的配置文件 1. 為了更好地運行，cooperator/start.py 應(yīng)提前開始并完成一次工作函數(shù)執(zhí)行

第一次執(zhí)行完后，每五分鐘運行一次工作函數(shù)

2. 啟動 master/start.py

默認只執(zhí)行一次

3. 啟動 worker/start.py

默認循環(huán)監(jiān)聽是否有新的URL待解析

核心點說明 1. 通過Redis的集合類型進行代理IP和URL的傳遞

# Summary Reference
# ---------
# 創(chuàng)建句柄
def make_redis_handler():
    pool = redis.ConnectionPool(host=r_server["ip"], port=r_server["port"], password=r_server["passwd"])
    return redis.Redis(connection_pool=pool)

# 獲得句柄
def make_proxy_handler():
    return make_redis_handler()

# 保存到指定的set下
def check_and_save(self, proxy):
 "pass"
   self.redis_handler.sadd(r_server["s_name"], proxy)

2. 由于在驗證代理IP和使用封裝的get_url()函數(shù)的時候網(wǎng)絡(luò)IO較多，所以使用多線程（效果還是很明顯的）。

#Summary Reference
#---------
def save_proxy_ip(self):
    "pass"
    for proxy in self.proxy_ip:
        Thread(target=self.check_and_save, args=(proxy,)).start()

def get_url(url):
    "pass"
    while True:
    "pass"
        resp = request("get", url, headers=headers, proxies={"http": proxy})
    "pass"

項目地址 https://github.com/A101428020...

有任何問題可以與我聯(lián)系(微信：smartseer)

云內(nèi)存存儲UMem Redis 簡單的爬蟲簡單的爬蟲程序最簡單的爬蟲 python簡單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/38568.html

發(fā)表評論

登陸后可評論

0條評論

zqhxuyuan

男|高級講師

我要關(guān)注我要私信

TA的文章

30歲轉(zhuǎn)入做軟件測試，能轉(zhuǎn)行成功嗎？別再被忽悠了，否則連工作都找不到

閱讀 770·2021-09-30 09:46
修羅云：兩周年特惠,有深港iplc/香港HKT/廣州/中山/徐州/杭州/佛山等,最低6折起

閱讀 3777·2021-09-03 10:45
CSS布局--圣杯布局和雙飛翼布局以及使用Flex實現(xiàn)圣杯布局

閱讀 3609·2019-08-30 14:11
css常用布局

閱讀 2544·2019-08-30 13:54
IE 8 瀏覽器 placeholder 兼容性處理

閱讀 2255·2019-08-30 11:00
CSS3熱身實戰(zhàn)--過渡與動畫（實現(xiàn)炫酷下拉，手風(fēng)琴，無縫滾動）

閱讀 2347·2019-08-29 13:03
聊聊clip-path

閱讀 1554·2019-08-29 11:16
Python爬蟲入門教程 2-100 妹子圖網(wǎng)站爬取

閱讀 3581·2019-08-26 13:52

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于Redis的簡單分布式爬蟲

相關(guān)文章

從0-1打造最強性能Scrapy爬蟲集群

分布式爬蟲原理

**scrapy-redis分布式爬蟲框架詳解**

發(fā)表評論

0條評論

zqhxuyuan

男|高級講師

TA的文章

30歲轉(zhuǎn)入做軟件測試，能轉(zhuǎn)行成功嗎？別再被忽悠了，否則連工作都找不到

修羅云：兩周年特惠,有深港iplc/香港HKT/廣州/中山/徐州/杭州/佛山等,最低6折起

CSS布局--圣杯布局和雙飛翼布局以及使用Flex實現(xiàn)圣杯布局

css常用布局

IE 8 瀏覽器 placeholder 兼容性處理

CSS3熱身實戰(zhàn)--過渡與動畫（實現(xiàn)炫酷下拉，手風(fēng)琴，無縫滾動）

聊聊clip-path

Python爬蟲入門教程 2-100 妹子圖網(wǎng)站爬取

最新活動