Python 讀取純文字PDF檔案

2021-09-13 23:42:57 字數 1556 閱讀 1375

#匯入系統庫

import sys

import importlib

#對importlib做處理,讓其載入sys

importlib.reload(sys)

from pdfminer.pdfparser import pdfparser,pdfdocument

from pdfminer.pdfinterp import pdfresourcemanager,pdfpageinterpreter#直譯器

from pdfminer.converter import pdfpageaggregator#轉換器

from pdfminer.layout import lttextboxhorizontal,laparams #布局

from pdfminer.pdfinterp import pdftextextractionnotallowed #是否允許pdf和text轉換

#將pat**件中的內容讀取到topat**件中

def readpdf(path, topath):

#以二進位制的形式開啟pdf檔案

f = open(path, 'rb')

#建立乙個pdf文件分析器

parser = pdfparser(f)

#建立pdf文件

pdffile = pdfdocument()

#獲取連線分析器

parser.set_document(pdffile)

#獲取文件物件

pdffile.initialize()

#檢測文件是否提供txt轉換

if not pdffile.is_extractable:

#不允許轉換

raise pdftextextractionnotallowed

else:

#解析資料

#資料管理器

manger = pdfresourcemanger()

#建立乙個pdf裝置物件

laparams = pdfpageaggregator(manager,laparams=laparams)

#直譯器物件

interpreter = pdfpageinterpreter(manger,device)

#開始迴圈處理,每次處理一頁

for page in pdffile.get_pages():

interpreter.process_page(page)

layout = device.get_result()

for x in layout:

if(isinstance(x, lttextboxhorizontal)):

with open(topath, 'a') as f:

str1 = x.get_text()

#print(str)

f.writer(str1 + "\n")

path = r"c:\users\xlg\desktop\001.pdf"

topath = r"c:\users\xlg\desktop\001.pdf"

readpdf(path,topath)

python讀取pdf檔案獲取pdf的文字內容

python處理pdf檔案的所有庫 import pypdf2 from urllib.request import urlopen file open d ltn20190716133.pdf rb filereader pypdf2.pdffilereader file pdf page num...

python讀取pdf中的文字

python處理pdf也是常用的技術了,對於python3來說,pdfminer3k是乙個非常好的工具。pip install pdfminer3k首先,為了滿足大部分人的需求,我先給乙個通用一點的指令碼來讀取pdf中的文字 from io import stringio from io impor...

Python讀取PDF內容

1,引言 晚上翻看 python網路資料採集 這本書,看到讀取pdf內容的 想起來前幾天 集搜客剛剛發布了乙個 抓取網頁pdf內容的抓取規則 這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,...