Python3爬蟲下載pdf（二）

LancerComet 發布于2019-07-30 14:32 / 2458人閱讀

摘要：爬蟲下載二最近在學習的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。需下載下載以下模塊模塊模塊一源碼設置命令行參數功能下載目標最大的線程數。方法的作用與內置函數類似，不過函數會在多個線程中并發調用方法返回一個生成器。

Python3爬蟲下載pdf（二）

最近在學習python的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。

需下載下載以下模塊

bs4模塊

requests模塊

一、源碼

from concurrent.futures import ThreadPoolExecutor
import requests,argparse,re,os
from bs4 import BeautifulSoup as Soup

headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0"
    }
    
## 設置命令行參數
def setArgs():
    parser = argparse.ArgumentParser(description="功能：下載pdf")
    parser.add_argument("url",help="目標url")
    parser.add_argument("-t","--thread",help="最大的線程數。默認為3",default=3,type=int)
    parser.add_argument("-f","--filedir",help="文件保存的路徑.默認為當前目錄下的downloads文件夾.如果不存在，便自動新建",default="downloads")
    return parser.parse_args()
    
## 獲取所有pdf的url
def getPdfUrl(root_url):
    response = requests.get(root_url, headers=headers)
    ## 如果requests沒有從頁面中獲得字符編碼，那么設置為utf-8
    if "charset" not in response.headers:
        response.encoding = "utf-8"
    bsObj = Soup(response.text, "html.parser")
    pdfs = bsObj.find_all("a", {"href": re.compile(r".pdf$")})
    ## 獲得一個字典，key為pdf完整url，value為pdf名稱
    url_pdfName = {root_url[:root_url.rfind("/")+1]+pdf["href"]:pdf.string for pdf in pdfs}
    return url_pdfName

## 顯示正在下載的pdf的名稱
def showPdf(pdf_name):
    print(pdf_name+"...")

## 下載pdf
def savePdf(url,pdf_name):
    response = requests.get(url,headers=headers,stream=True)
    ## 如果指定的文件夾，那么便新建
    if not os.path.exists(FILE_DIR):
        os.makedirs(FILE_DIR)
    ## os.path.join(a,b..)如果a字符串沒有以/結尾，那么自動加上。（windows下）
    with open(os.path.join(FILE_DIR,pdf_name),"wb") as pdf_file:
        for content in response.iter_content():
            pdf_file.write(content)

## 設置要下載一個pdf要做的事情，作為線程的基本
def downOne(url,pdf_name):
    showPdf(pdf_name)
    savePdf(url,pdf_name)
    print(pdf_name+" has been downloaded!!")
    
## 開始線程
def downPdf(root_url,max_thread):
    url_pdfName = getPdfUrl(root_url)
    with ThreadPoolExecutor(max_thread) as executor:
        executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

def main():
    ## 獲得參數
    args = setArgs()
    ## 如果沒有輸入必須的參數，便結束，返回簡略幫助
    try:
        global FILE_DIR
        FILE_DIR = args.filedir
        downPdf(args.url,args.thread)
    except:
        exit()

if __name__ == "__main__":
    main()

效果圖

例子：

備注

with ThreadPoolExecutor(max_thread) as executor:
     executor.map(downOne,url_pdfName.keys(),url_pdfName.values())

使用工作的線程實例化ThreadPoolExecutor 類；executor._exit_ 方法會調用executor.shutdown(wait=True) 方法，它會在所有線程都執行完畢前阻塞線程。

map方法的作用與內置map函數類似，不過downOne函數會在多個線程中并發調用；map方法返回一個生成器。

global FILE_DIR
FILE_DIR = args.filedir

設置了全局參數，用來接收文件路徑的值

因為后面用executor.map() 傳參的時候，參數必須是iterabe，不知道咋放了，所以就設了個全局變量

云服務器 GPU云服務器 python3 爬蟲 python3爬蟲爬蟲python3 python爬蟲pdf

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40762.html

Python3爬蟲下載pdf（一）

摘要：爬蟲下載一最近在學習的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。 Python3爬蟲下載pdf（一）最近在學習python的爬蟲，并且玩的不亦說乎，因此寫個博客，記錄并分享一下。需下載以下模塊 bs4 模塊 requests 模塊一、源碼功能：下載指定url內的所有的pdf 語法：將含有pdf的url放到腳本后面執行就可以了 from bs4 import...

instein 2019-07-30 14:32 評論0 收藏0
爬蟲 - 收藏集 - 掘金

摘要：在這之前，還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統。爬蟲修煉之道——從網頁中提取結構化數據并保存（以爬取糗百文本板塊所有糗事為例） - 后端 - 掘金歡迎大家關注我的專題：爬蟲修煉之道上篇爬蟲修煉之道——編寫一個爬取多頁面的網絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲，如何將相對URL轉為絕對URL，如何限速，...

1fe1se 2019-07-31 10:58 評論0 收藏0
50行Python代碼，教你獲取公眾號全部文章

摘要：今天介紹一種通過抓包端微信的方式去獲取公眾號文章的方法。如上圖，通過抓包工具獲取微信的網絡信息請求，我們發現每次下拉刷新文章的時候都會請求這個接口。本文首發自公眾號：python3xxx 爬取公眾號的方式常見的有兩種通過搜狗搜索去獲取，缺點是只能獲取最新的十條推送文章通過微信公眾號的素材管理，獲取公眾號文章。缺點是需要申請自己的公眾號。 showImg(//img.mukew...

MartinHan 2019-07-31 11:27 評論0 收藏0
Python3網絡爬蟲實戰---16、Web網頁基礎

摘要：，簡稱為，是一種腳本語言，和配合使用，提供給用戶的只是一種靜態的信息，缺少交互性。這就是網頁的三大基本組成。父節點擁有子節點，同級的子節點被稱為兄弟節點。選擇屬于其父節點的首個節點的每個節點。同上，從最后一個上一篇文章：Python3網絡爬蟲實戰---15、爬蟲基礎：HTTP基本原理下一篇文章：Python3網絡爬蟲實戰---17、爬蟲基本原理我們平時用瀏覽器訪問網站的時候，一個...

netScorpion 2019-07-31 10:34 評論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時間永遠都過得那么快，一晃從年注冊，到現在已經過去了年那些被我藏在收藏夾吃灰的文章，已經太多了，是時候把他們整理一下了。那是因為收藏夾太亂，橡皮擦給設置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評論0 收藏0