python讀寫pdf Python讀取PDF內容

1，引言

晚上翻看《python網路資料採集》這本書，看到讀取pdf內容的**，想起來前幾天集搜客剛剛發布了乙個抓取網頁pdf內容的抓取規則，這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力，能夠把pdf格式轉換成html標籤，比如，div之類的標籤，從而用gooseeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。

從而產生了乙個問題：用python爬蟲的話，能做到什麼程度。下面將講述乙個實驗過程和源**。

2，把pdf轉換成文字的python源**

from urllib.request import urlopen

from pdfminer.pdfinterp import pdfresourcemanager, process_pdf

from pdfminer.converter import textconverter

from pdfminer.layout import laparams

from io import stringio

from io import open

def readpdf(pdffile):

rsrcmgr = pdfresourcemanager()

retstr = stringio()

laparams = laparams()

device = textconverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdffile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdffile = urlopen("")

outputstring = readpdf(pdffile)

print(outputstring)

pdffile.close()

如果pdf檔案在你的電腦裡，那就把urlopen返回的物件pdffile替換成普通的open()檔案物件。

3，展望

這個實驗只是把pdf轉換成了文字，但是沒有像開頭所說的轉換成html標籤，那麼在python程式設計環境下是否有這個能力，留待今後探索。

1.gooseeker開源python網路爬蟲github源

5，文件修改歷史

2016-05-26：v2.0，增補文字說明

python怎麼讀寫 python怎麼讀寫檔案

python怎麼讀寫檔案？讀取操作一次性讀取整個檔案內容 with open 致橡樹.txt r encoding utf 8 as f print f.read 通過for in迴圈逐行讀取 with open 致橡樹.txt mode r as f for line in f print li...

python怎麼讀寫 python怎麼讀寫檔案

詳細內容 python怎麼讀寫檔案？讀取操作一次性讀取整個檔案內容 with open 致橡樹.txt r encoding utf 8 as f print f.read 通過for in迴圈逐行讀取 with open 致橡樹.txt mode r as f for line in f pri...

Python檔案讀寫

今天在看python檔案讀寫操作，發現python file name mode buffering file 函式用於建立乙個file物件，它有乙個別名叫open 可能更形象一些，它們是內建函式。來看看它的引數。它引數都是以字串的形式傳遞的。name是檔案的名字。mode 是開啟的模式，可選的值為...

python讀寫pdf Python讀取PDF內容

python怎麼讀寫 python怎麼讀寫檔案

python怎麼讀寫 python怎麼讀寫檔案

Python檔案讀寫

相關推薦