摘要:上一次的抓取豆瓣高分計算機書籍的案例,采用的是完全同步的方式。是用來進行多線程編程的,也就是用來創建隊列。同時這個函數也是由多個解析線程執行。
上一次的抓取豆瓣高分計算機書籍的案例,采用的是完全同步的方式。即單個線程依次執行完所有的邏輯,這樣存在的問題就是我們的爬蟲程序會非常的慢。
所以本文作為上一次案例的升級版本,通過循序漸進、動手實踐的方式來達到更好的學習效果。
import requests from bs4 import BeautifulSoup import re import numpy as np import csv import time import threading import queue
本次新增了兩個包,threading 和 queue。threading 是用來進行多線程編程的,queue 也就是用來創建隊列。至于更詳細的使用方法,可以上網自行學習。這里就不多做介紹了。
生成 URL
創建兩個隊列,一個用保存生成的URL(隊列1),一個保存HTML文檔(隊列2)
創建若干個線程來下載 HTML,并且保存到隊列2
創建若干個線程解析文檔
排序并保存
代碼:以上前三個方法都沒有改動,主要是第四個和第五個。
req_page(): 用來請求url。
def req_page(): while True: try: url = url_task.get(block=False) resp = requests.get(url) html = resp.text task_html.put(html) time.sleep(1) except: break
以上代碼會被若干個線程執行,每一個線程的流程都是不段的從 url_task 也就是我們創建的隊列1中取出一個URL,然后執行請求,并把下載到的 HTML 放入隊列2。這里有兩點要注意的。第一個點就是通過 url_task.get() 方法從隊列里拿出任務的時候,由于我們的隊列1是提前設定好的,也就是說當下載線程取任務的時候并不會發生 queue.Empty 的異常。只有當隊列中的數據被處理完的時候才會執行 except,那么線程就可以通過這個來退出。第二點是sleep這塊 ,因為請求太頻繁會被豆瓣封掉IP。
get_content():
def get_content(): if task_html.qsize() > 10: while True: try: html = task_html.get(block=False) bs4 = BeautifulSoup(html, "lxml") book_info_list = bs4.find_all("li", class_="subject-item") if book_info_list is not None: for book_info in book_info_list: list_ = [] try: star = book_info.find("span", class_="rating_nums").get_text() if float(star) < 9.0: continue title = book_info.find("h2").get_text().replace(" ", "").replace(" ", "") comment = book_info.find("span", class_="pl").get_text() comment = re.sub("D", "", comment) list_.append(title) list_.append(comment) list_.append(star) task_res.append(list_) except: continue except: break
這個函數首先判斷一下 HTML 文檔隊列(隊列2)的大小是不是大于10,目的是防止解析線程比下載線程執行的快,如果解析線程快于下載線程,那么再還沒有下載完所有的URL時,就觸發隊列的 queue.Empty異常,從而過早退出線程。中間的代碼也是上次案例中的代碼,不同之處也就是以前是從列表中讀取,現在是從隊列中讀取。同時這個函數也是由多個解析線程執行。
主函數:
# 生成分頁url url_list = make_url(50) # url 隊列 (隊列1) url_task = queue.Queue() for url in url_list: url_task.put(url) # 下載好的html隊列 (隊列2) task_html = queue.Queue() # 最終結果列表 task_res = [] threads = [] # 獲取html線程 for i in range(5): threads.append(threading.Thread(target=req_page)) # 解析html線程 threads.append(threading.Thread(target=get_content)) threads.append(threading.Thread(target=get_content)) for i in threads: i.start() i.join() # 主線程排序保存 save(_sort(task_res))
主函數的流程也就是最開始寫的五個流程。因為我們創建的所有線程都調用了 join() 方法,那么在最后執行排序和保存操作的時候,所有的子線程都已經執行完畢了。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/44777.html
摘要:本文將通過來爬取豆瓣編程類評分大于的書籍。下圖是最終的結果下面進入正題一采集源分析首先我們找到豆瓣的編程類書籍網址編程進入網址之后我們翻到最下面的分頁導航通過分析分頁地址我們可以得出偏移量這個地址則是我們要采集的內容。 對于很多正在學習計算機的朋友來說,選擇合適的學習材料是非常重要的。 本文將通過 Python 來爬取豆瓣編程類評分大于 9.0 的書籍。 此案例很適合入門爬蟲的朋友學習...
摘要:今天為大家整理了個爬蟲項目。地址新浪微博爬蟲主要爬取新浪微博用戶的個人信息微博信息粉絲和關注。代碼獲取新浪微博進行登錄,可通過多賬號登錄來防止新浪的反扒。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。支持微博知乎豆瓣。 showImg(https://segmentfault.com/img/remote/1460000018452185?w=1000&h=667); 今天為大家整...
閱讀 3916·2021-11-16 11:44
閱讀 3116·2021-11-12 10:36
閱讀 3373·2021-10-08 10:04
閱讀 1257·2021-09-03 10:29
閱讀 391·2019-08-30 13:50
閱讀 2605·2019-08-29 17:14
閱讀 1735·2019-08-29 15:32
閱讀 1081·2019-08-29 11:27