PDF分析文字（1）利用python對PDF的讀取

1，安裝第三方庫檔案-pdfminer3k。

安裝方式：

pip install pdfminer3k

中文參考文件

3，資料獲取思路：

（1）通過pdf轉html，再利用爬蟲技術解決，目前來說這方面的技術比較成熟，而且參考很多。

（2）通過pdf轉為txt格式，再通過字元提取的方式處理。這樣的方式容易理解。

（3）根據pdf讀取方式，採用直接讀取pdf內容，通過記憶體管理的方式，實現內部呼叫讀取的資料。

為了保證後續的技術使用方便性，這裡採用第三種方式進行處理。

4，讀取pdf

from pdfminer.pdfinterp import pdfresourcemanager, process_pdf
from pdfminer.converter import textconverter
from pdfminer.layout import laparams
from io import stringio
from io import open
import re
def readpdf(pdffile):
rsrcmgr = pdfresourcemanager()
retstr = stringio()
laparams = laparams()
device = textconverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdffile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
def main(pdf='sdge_bill.pdf'):
with open(pdf, "rb") as f:
output = readpdf(f)
meternumberregex = re.compile(r'(meter number: )\d')
meternumber = meternumberregex.search(output).group()
print(meternumber)
taxesfeesregex = re.compile(r'(total taxes & fees on electric charges -)\s+\$\d\.\d+')
taxesfees = taxesfeesregex.search(output).group()
print(taxesfees)
if __name__ == '__main__':
main()

讀取結果：

meter number: 00613430

total taxes & fees on electric charges - $1.41

這裡，pdf讀取工作已經完成，

另外，可以採用pdf轉為字串的方式進行讀取，這樣可以利用爬蟲的資料處理方法來進行分析。

from urllib.request import urlopen
from pdfminer.pdfinterp import pdfresourcemanager, process_pdf
from pdfminer.converter import textconverter
from pdfminer.layout import laparams
from io import stringio
from io import open
def readpdf(pdffile):
rsrcmgr = pdfresourcemanager()
retstr = stringio()
laparams = laparams()
device = textconverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdffile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdffile = urlopen("")
outputstring = readpdf(pdffile)
print(outputstring)
pdffile.close()

語言文字分析（1）

語言在資料探勘中應用廣泛，並有越來越火的趨勢。語言進行文字挖掘也是相當好使。作為乙個語言新手，追隨著眾多牛人的腳步，嘗試使用語言進行文字挖掘分析，過程應是充滿艱辛，道路曲折坎坷之處write down以記錄之。我從text analysis with r for students of lite...

中文文字分析（1）分詞

import jieba import re 資料格式晚上想吃五花肉土豆蓋澆飯今晚吃雞嘿咻嘿綠皮環保小火車進站一首夢醒時分送給大家具體流程如下目的清洗文字中的特殊符號 sentence 晚上想吃五花肉土豆蓋澆飯今晚吃雞嘿咻嘿綠皮環保小火車進站一首夢醒時分送給大家 def ...

利用Python進行資料分析學習記錄1

coding utf import numpy as np data np.random.randn 2,3 生成隨機數組 2維陣列每組內三個隨機數 print data 1.25501044 1.05825185 1.26123328 0.16313349 0.48071422 1.566335...

PDF分析文字（1）利用python對PDF的讀取

語言文字分析（1）

中文文字分析（1） 分詞

利用Python進行資料分析學習記錄1

相關推薦

中文文字分析（1）分詞