Python處理PDF檔案的合併與分離

胡兄今天早上突然問我會不會把pdf拆開和合併，原來是ren老師要提交文獻列表之類的東西…我本著偷懶便捷的辦法開啟了搜尋引擎，了解了一下相關軟體，emmmmmmmmm，結果不是讓付費就是2m以上檔案不讓開啟，反正就是辣雞的不行。

早就知道python有個庫pypdf2可以簡單處理這些了…那就pip一下給他處理了

這個需求比較簡單，把乙個pdf的首頁末頁成另乙個pdf的封皮和末頁

from pypdf2 import pdffilereader, pdffilewriter

被拆開的叫

檢索結果掃瞄2021.3.8.pdf

被合併的叫

./近五年3-8.pdf

定義兩個函式

#拆開
defsplit
(path, name_of_split)
: pdf = pdffilereader(path)
for page in
range
(pdf.getnumpages())
: pdf_writer = pdffilewriter(
) pdf_writer.addpage(pdf.getpage(page)
) output = f'.pdf'
with
open
(output,
'wb'
)as output_pdf:
pdf_writer.write(output_pdf)
#合併def
merge_pdfs
(paths, output)
: pdf_writer = pdffilewriter(
)for path in paths:
pdf_reader = pdffilereader(path)
for page in
range
(pdf_reader.getnumpages())
:# 把每張pdf頁面加入到這個可讀取物件中
pdf_writer.addpage(pdf_reader.getpage(page)
)# 把這個已合併了的pdf文件儲存起來
with
open
(output,
'wb'
)as out:
pdf_writer.write(out)

然後直接使用

path = r'./檢索結果掃瞄2021.3.8.pdf'
split(path,
'拆開'
)paths =
['./拆開0.pdf'
,'./近五年3-8.pdf'
,'./拆開1.pdf'
]merge_pdfs(paths, output=
'hml要的.pdf'
)

檔案都在.ipynb同目錄下，檢查檔案符合要求。

Python處理pdf檔案的包

分類 python 2012 06 08 12 09 33人閱讀收藏舉報 reportlab 強大的生成pdf檔案的庫。主頁主要功能 pdfminer 主要用於分析pdf文字內容的工具。主頁主要功能簡單講，如果只折騰現成的pdf檔案，用pypdf，如果要生成新內容的pdf檔案用reportl...

python讀取pdf檔案獲取pdf的文字內容

python處理pdf檔案的所有庫 import pypdf2 from urllib.request import urlopen file open d ltn20190716133.pdf rb filereader pypdf2.pdffilereader file pdf page num...

python讀取pdf檔案

pdfplumber是乙個可以處理pdf格式資訊的庫。可以查詢關於每個文字字元矩陣和行的詳細資訊，也可以對進行提取並進行視覺化除錯。文件參考安裝直接採用pip即可。命令列中輸入 pip install pdfplumber import pdfplumber with pdfplumber....

Python處理PDF檔案的合併與分離

Python處理pdf檔案的包

python讀取pdf檔案獲取pdf的文字內容

python讀取pdf檔案

相關推薦