用python讀取pdf文件

2021-08-07 17:21:52 字數 1381 閱讀 5349

首先要安裝庫:pdfminer3k

from pdfminer.converter import pdfpageaggregator

from pdfminer.layout import laparams

from pdfminer.pdfparser import pdfparser, pdfdocument

from pdfminer.pdfinterp import pdfresourcemanager, pdfpageinterpreter

from urllib.request import urlopen

#獲取文件

#fp=urlopen("")

fp=open("naacl06-shinyama.pdf","rb")

#建立乙個與文件關聯的直譯器

parser=pdfparser(fp)

#pdf文件的物件

doc=pdfdocument()

#鏈結直譯器和文件

parser.set_document(doc)

doc.set_parser(parser)

#初始化文件

doc.initialize("")

#建立pdf資源管理器

resource=pdfresourcemanager()

#引數分析器

laparam=laparams()

#建立乙個聚合器

device=pdfpageaggregator(resource,laparams=laparam)

#建立pdf頁面直譯器

interpreter=pdfpageinterpreter(resource,device)

#使用文件物件得到頁面的集合

for page in doc.get_pages():

#使用頁面直譯器來讀取,儲存到聚合器中

interpreter.process_page(page)

#使用聚合器來讀取的內容

layout=device.get_result()

for out

in layout:

#判斷out是否有get_text屬性

python讀取pdf文件 實戰

coding utf 8 讀取pdf文件 from pdfminer.converter import pdfpageaggregator from pdfminer.layout import laparams from pdfminer.pdfparser import pdfparser,pd...

讀取PDF文件

coding utf 8 匯入開發包 frompdfminer.pdfparserimportpdfparser,pdfdocument frompdfminer.pdfinterpimportpdfresourcemanager,pdfpageinterpreter frompdfminer.pd...

c 讀取pdf文件

2.解壓pdfbox,專案中新增存在解壓後bin目錄下的dll檔案 ikvm.gnu.classpath.dll ikvm.runtime.dll fontbox 0.1.0 dev.dll pdfbox 0.7.3.dll 3.檔案中引入2個命名空間 using org.pdfbox.pdmode...