Python處理PDF檔案的合併與分離

2021-10-21 13:43:45 字數 1617 閱讀 5703

胡兄今天早上突然問我會不會把pdf拆開和合併,原來是ren老師要提交文獻列表之類的東西…我本著偷懶便捷的辦法開啟了搜尋引擎,了解了一下相關軟體,emmmmmmmmm,結果不是讓付費就是2m以上檔案不讓開啟,反正就是辣雞的不行。

早就知道python有個庫pypdf2可以簡單處理這些了…那就pip一下給他處理了

這個需求比較簡單,把乙個pdf的首頁末頁成另乙個pdf的封皮和末頁

from pypdf2 import pdffilereader, pdffilewriter
被拆開的叫

檢索結果掃瞄2021.3.8.pdf
被合併的叫

./近五年3-8.pdf
定義兩個函式

#拆開

defsplit

(path, name_of_split)

: pdf = pdffilereader(path)

for page in

range

(pdf.getnumpages())

: pdf_writer = pdffilewriter(

) pdf_writer.addpage(pdf.getpage(page)

) output = f'.pdf'

with

open

(output,

'wb'

)as output_pdf:

pdf_writer.write(output_pdf)

#合併def

merge_pdfs

(paths, output)

: pdf_writer = pdffilewriter(

)for path in paths:

pdf_reader = pdffilereader(path)

for page in

range

(pdf_reader.getnumpages())

:# 把每張pdf頁面加入到這個可讀取物件中

pdf_writer.addpage(pdf_reader.getpage(page)

)# 把這個已合併了的pdf文件儲存起來

with

open

(output,

'wb'

)as out:

pdf_writer.write(out)

然後直接使用

path = r'./檢索結果掃瞄2021.3.8.pdf'

split(path,

'拆開'

)paths =

['./拆開0.pdf'

,'./近五年3-8.pdf'

,'./拆開1.pdf'

]merge_pdfs(paths, output=

'hml要的.pdf'

)

檔案都在.ipynb同目錄下,檢查檔案符合要求。

Python處理pdf檔案的包

分類 python 2012 06 08 12 09 33人閱讀收藏 舉報 reportlab 強大的生成pdf檔案的庫。主頁 主要功能 pdfminer 主要用於分析pdf文字內容的工具。主頁 主要功能 簡單講,如果只折騰現成的pdf檔案,用pypdf,如果要生成新內容的pdf檔案用reportl...

python讀取pdf檔案獲取pdf的文字內容

python處理pdf檔案的所有庫 import pypdf2 from urllib.request import urlopen file open d ltn20190716133.pdf rb filereader pypdf2.pdffilereader file pdf page num...

python讀取pdf檔案

pdfplumber是乙個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元 矩陣 和行的詳細資訊,也可以對 進行提取並進行視覺化除錯。文件參考 安裝直接採用pip即可。命令列中輸入 pip install pdfplumber import pdfplumber with pdfplumber....