python讀寫pdf Python讀取PDF內容

2021-10-11 20:24:16 字數 1231 閱讀 1345

1,引言

晚上翻看《python網路資料採集》這本書,看到讀取pdf內容的**,想起來前幾天集搜客剛剛發布了乙個抓取網頁pdf內容的抓取規則,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,從而用gooseeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。

從而產生了乙個問題:用python爬蟲的話,能做到什麼程度。下面將講述乙個實驗過程和源**。

2,把pdf轉換成文字的python源**

from urllib.request import urlopen

from pdfminer.pdfinterp import pdfresourcemanager, process_pdf

from pdfminer.converter import textconverter

from pdfminer.layout import laparams

from io import stringio

from io import open

def readpdf(pdffile):

rsrcmgr = pdfresourcemanager()

retstr = stringio()

laparams = laparams()

device = textconverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdffile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdffile = urlopen("")

outputstring = readpdf(pdffile)

print(outputstring)

pdffile.close()

如果pdf檔案在你的電腦裡,那就把urlopen返回的物件pdffile替換成普通的open()檔案物件。

3,展望

這個實驗只是把pdf轉換成了文字,但是沒有像開頭所說的轉換成html標籤,那麼在python程式設計環境下是否有這個能力,留待今後探索。

1.gooseeker開源python網路爬蟲github源

5,文件修改歷史

2016-05-26:v2.0,增補文字說明

python怎麼讀寫 python怎麼讀寫檔案

python怎麼讀寫檔案?讀取操作 一次性讀取整個檔案內容 with open 致橡樹.txt r encoding utf 8 as f print f.read 通過for in迴圈逐行讀取 with open 致橡樹.txt mode r as f for line in f print li...

python怎麼讀寫 python怎麼讀寫檔案

詳細內容 python怎麼讀寫檔案?讀取操作 一次性讀取整個檔案內容 with open 致橡樹.txt r encoding utf 8 as f print f.read 通過for in迴圈逐行讀取 with open 致橡樹.txt mode r as f for line in f pri...

Python檔案讀寫

今天在看python檔案讀寫操作,發現python file name mode buffering file 函式用於建立乙個file物件,它有乙個別名叫open 可能更形象一些,它們是內建函式。來看看它的引數。它引數都是以字串的形式傳遞的。name是檔案的名字。mode 是開啟的模式,可選的值為...