python識別文字tesseract

2022-06-23 10:27:10 字數 837 閱讀 6608

ubuntu版本:

1.tesseract-ocr安裝

sudo apt-get install tesseract-ocr

2.pytesseract安裝

sudo pip install pytesseract

3.pillow 安裝

sudo pip install pillow

開始寫**:

from pil import

image

from pytesseract import

pytesseract

image = image.open('

test.png')

code = pytesseract.image_to_string(image,lang='

chi_sim')

print(code)

報錯了:

找到路徑,發現沒有chi_sim.traineddata這個訓練包

#

安裝訓練資料(equ為數學公式包)

sudo apt-get install tesseract-ocr-eng tesseract-ocr-chi-sim tesseract-ocr-equ

安裝之後就會有訓練包了,可以正常執行。

英文識別正確率較高,中文就比較雞肋了。

Python 文字識別 Tesseract

tesseract 是乙個 ocr 庫,目前由 google 贊助 google 也是一家以 ocr 和機器學習技術聞名於世的公司 tesseract 是目前公認最優秀 最精確的開源 ocr 系統。除了極高的精確度,tesseract 也具有很高的靈活性。它可以通過訓練識別出任何字型,也可以識別出任...

Python識別中的文字

參照 2.本地安裝tesseract pip install pytesseract 文字識別 pip install pillow 讀取 參照importosimportpytesseract 文字的路徑 path text img 獲取路徑列表 imgs path iforiinos.listd...

文字識別 文字識別的應用

是否有過這樣的經歷,在網上發現一篇好文,卻沒辦法複製,怎麼辦?手動抄錄嗎,我想如果沒有ocr,大部分人會這麼做。ocr是一種影象處理技術,又叫文字識別,能夠將影象中不可複製的文字轉換成可編輯的文字形式,簡單來說,使用者對無法複製的文字進行拍照,通過文件識別軟體進行識別,即可獲得可編輯 可儲存的電子文...