Python 文字識別 Tesseract

2021-08-11 12:24:17 字數 1384 閱讀 7375

tesseract 是乙個 ocr 庫,目前由 google 贊助(google 也是一家以 ocr 和機器學習技術聞名於世的公司)。tesseract 是目前公認最優秀、最精確的開源 ocr 系統。 除了極高的精確度,tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字型,也可以識別出任何 unicode 字元。

以下所有都是在mac上安裝實現的

//安裝tesseract的同時安裝訓練工具

brew install --

with

-training

-tools tesseract

//安裝tesseract的同時安裝所有語言,語言包比較大,如果安裝的話時間較長,建議不安裝,按需選擇

brew install --

all-languages tesseract

//安裝tesseract,並安裝訓練工具和語言

brew install --

all-languages

--with

-training

-tools tesseract

//只安裝tesseract,不安裝訓練工具

brew install tesseract

一般使用:

//預設使用eng文字庫, imgname是的位址,result識別結果

tesseract imgname result

指定語言:

//指定使用簡體中文

tesseract -l chi_sim imgname result

//檢視本地存在的語言庫

tesseract --

list

-langs

指定多語言:

//指定多語言,用+號相連

tesseract -l chi_sim+eng imgname result

通過 pip 安裝支援python 版本的 tesseract庫

pip install pytesseract
通過python**的簡單實現

text是爬蟲中的驗證碼的識別,可以通過更換別人訓練好的語言包來識別.如果想自己通過訓練來獲得語言包也是可以的.

這裡放個官方文件,等我練好了再分享

python識別文字tesseract

ubuntu版本 1.tesseract ocr安裝 sudo apt get install tesseract ocr 2.pytesseract安裝 sudo pip install pytesseract 3.pillow 安裝 sudo pip install pillow 開始寫 fro...

Python識別中的文字

參照 2.本地安裝tesseract pip install pytesseract 文字識別 pip install pillow 讀取 參照importosimportpytesseract 文字的路徑 path text img 獲取路徑列表 imgs path iforiinos.listd...

文字識別 文字識別的應用

是否有過這樣的經歷,在網上發現一篇好文,卻沒辦法複製,怎麼辦?手動抄錄嗎,我想如果沒有ocr,大部分人會這麼做。ocr是一種影象處理技術,又叫文字識別,能夠將影象中不可複製的文字轉換成可編輯的文字形式,簡單來說,使用者對無法複製的文字進行拍照,通過文件識別軟體進行識別,即可獲得可編輯 可儲存的電子文...