Python之合并PDF文件

maxmin 發布于2019-07-30 16:35 / 2144人閱讀

摘要：在日常的學習生活工作中，我們有時會遇到需要合并文件的需求。模塊的相關參考文檔網址為本文將介紹如何利用來完成文件的合并。

??在日常的學習生活工作中，我們有時會遇到需要合并PDF文件的需求。這時，我們可以利用相關的PDF軟件（如Adobe Acrobat Reader DC）來完成這個任務，幸運的是，Python也為我們提供了這方面的處理模塊PyPDF2, 借用它，我們可以利用Python代碼來很好地完成這項任務。
??PyPDF2模塊的相關參考文檔網址為：https://pythonhosted.org/PyPDF2/ . 本文將介紹如何利用PyPDF2來完成PDF文件的合并。
??首先我們在E盤的Cheats文件夾下有如下的PDF文件：

??我們的Python代碼完整如下：

# -*- coding:utf-8*-
# 利用PyPDF2模塊合并同一文件夾下的所有PDF文件
# 只需修改存放PDF文件的文件夾變量：file_dir 和 輸出文件名變量: outfile

import os
from PyPDF2 import PdfFileReader, PdfFileWriter
import time

# 使用os模塊的walk函數，搜索出指定目錄下的全部PDF文件
# 獲取同一目錄下的所有PDF文件的絕對路徑
def getFileName(filedir):

    file_list = [os.path.join(root, filespath) 
                 for root, dirs, files in os.walk(filedir) 
                 for filespath in files 
                 if str(filespath).endswith("pdf")
                 ]
    return file_list if file_list else []

# 合并同一目錄下的所有PDF文件
def MergePDF(filepath, outfile):

    output = PdfFileWriter()
    outputPages = 0
    pdf_fileName = getFileName(filepath)

    if pdf_fileName:
        for pdf_file in pdf_fileName:
            print("路徑：%s"%pdf_file)

            # 讀取源PDF文件
            input = PdfFileReader(open(pdf_file, "rb"))

            # 獲得源PDF文件中頁面總數
            pageCount = input.getNumPages()
            outputPages += pageCount
            print("頁數：%d"%pageCount)

            # 分別將page添加到輸出output中
            for iPage in range(pageCount):
                output.addPage(input.getPage(iPage))

        print("合并后的總頁數:%d."%outputPages)
        # 寫入到目標PDF文件
        outputStream = open(os.path.join(filepath, outfile), "wb")
        output.write(outputStream)
        outputStream.close()
        print("PDF文件合并完成！")

    else:
        print("沒有可以合并的PDF文件！")

# 主函數
def main():
    time1 = time.time()
    file_dir = r"E:Cheats" # 存放PDF的原文件夾
    outfile = "Cheat_Sheets.pdf" # 輸出的PDF文件的名稱
    MergePDF(file_dir, outfile)
    time2 = time.time()
    print("總共耗時：%s s." %(time2 - time1))

main()

??運行上述Python代碼，則會在同一目錄下生成Cheat_Sheets.pdf文件，如下：

??本次分享到此結束，歡迎代價交流~~

云服務器 GPU云服務器 PDF合并開源軟件之道 pdf 合并文件按順序合并文件

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/41745.html

另類爬蟲：從PDF文件中爬取表格數據

摘要：本文將展示如何利用的模塊從文件中爬取表格數據。但如何從文件中提取其中的表格，這卻是一個大難題。我們以輸出文件為例從文件中提取表格將表格數據轉化為文件得到的文件如下例在例中，我們將提取頁面中的某一區域的表格的數據。簡介 ??本文將展示一個稍微不一樣點的爬蟲。??以往我們的爬蟲都是從網絡上爬取數據，因為網頁一般用HTML,CSS,JavaScript代碼寫成，因此，有大量成熟的技術來爬取...

Anchorer 2019-07-31 11:14 評論0 收藏0
教你20行python代碼實現編輯永久免費pdf工具

　　小編寫這篇文章的主要目的，主要是給大家介紹一下關于python代碼實現pdf編輯免費pdf工具相關知識的解答。　　PDF是在日常生活中使用范圍還是比較的廣泛的，很多的文檔都是PDF格式。格式穩定是他的一個優勢，使得我們在打印、分享、傳輸過程中能夠最優的保持原有色彩和格式。　　PDF各種各樣的的版本是比較的多的，它在格式的穩定性方面雖然具有很大優勢。但是，在可編輯性方面卻為使用者引入了另外一個困...

89542767 2022-09-16 16:34 評論0 收藏0
批量截取pdf文件

摘要：能獲取頁面中文本的準確位置，以及字體或行等其他信息。安裝修改的源碼利用截取中的某幾頁，如果的中文字編碼為編碼，則無法解析。在簡體中文操作系統中，編碼代表編碼。其一在文件中第行，改為此處是為了適應含有的編碼的中文字符，提供對其的解碼能力。任務現在我們有大量的pdf文件，我們想要截取每個文件中感興趣的一部分，比如，我們下載了3500份上市公司的年度報告，我們想要找到包含關鍵審計事項部分...

yzzz 2019-07-31 10:03 評論0 收藏0