使用 Python 將 PDF 檔案按頁進行拆分

2021-10-08 17:00:31 字數 1204 閱讀 8148

""" 

用途:將乙個 pdf 檔案按頁拆分為多個 pdf 檔案

注意事項:若報錯 modulenotfounderror: no module named 'pypdf2'

則需要先安裝該模組。使用命令 「pip install pypdf2」 安裝即可

"""import pypdf2 # 需要先安裝:pip/pip3 install pypdf2

import os

root = r'c:\users\liujieru\documents\pdf'

# 原始檔所在的絕對路徑

file_path = os.path.join(root,

'組合.pdf'

)pdf_file =

open

(file_path,

'rb'

)# 獲取原 pdf 檔案

pdf_reader = pypdf2.pdffilereader(pdf_file)

# 建立 pdf 物件

source_name = pdf_file.name # 獲取原始檔名稱,包含絕對路徑

pdf_writer = pypdf2.pdffilewriter(

)# 建立乙個空白 pdf 物件

for page_num in

range

(pdf_reader.numpages)

:# 將每頁內容分別寫入乙個新檔案

page_obj = pdf_reader.getpage(page_num)

pdf_writer.addpage(page_obj)

# 向空白 pdf 物件中新增要複製的 pdf頁面

new_name = source_name[:-

4]+str

(page_num)

+".pdf"

pdf_new_file =

open

(new_name,

'wb'

)# 建立乙個新檔案

pdf_writer.write(pdf_new_file)

# 將新增了內容的空白 pdf 物件,寫入到新建檔案中

pdf_new_file.close(

) pdf_writer.__init__(

)# 將 pdf 物件初始化

pdf_file.close(

)

使用Python將HTML轉成PDF

主要使用的是wkhtmltopdf的python封裝 pdfkit 1.install python pdfkit pip install pdfkit2.install wkhtmltopdf sudo apt get install wkhtmltopdfsudo yum intsall wkh...

python3 將pdf檔案轉為text

pdf檔案儘管可以用python提取文字,但存在加密的情況,那種pdf就是解析不了的。另外pdf更類似於,所以即使可以用python提取,結果也容易有問題。所以效果不敢保證。在python3中解析pdf一般用pdfminer3k,就是pdfminer的python3版本。直接pip安裝即可 pip ...

使用python為pdf檔案新增書籤

pdf巢狀書籤編輯方法 1.匯入pypdf2的模組包 2.addbookmark是向pdf物件中新增書籤的函式,第乙個引數為書簽名,第二個引數為書籤指向的頁數,第三個引數為父書籤 還有其它的引數具體請查閱資料 addbookmark函式會返回乙個書籤物件,因此 可在新增完父書籤後儲存返回的標籤物件,...