Tesseract Ocr文字識別

2021-09-20 05:31:28 字數 1382 閱讀 6525

tesseract的ocr引擎最先由hp實驗室於2023年開始研發,至2023年時已經成為ocr業內最準確的三款識別引擎之一。2023年,tesseract由美國內華達州資訊科技研究所獲得,並求諸於google對tesseract進行改進、消除bug、優化工作。tesseract目前已作為開源專案發布在google project.

執行環境:

windows10 + python 3.6 + tesseract 4.0.0-beta.1

先看效果: 

一、安裝python模組

pip3 install pytesseract

二、安裝tesseract orc注意:安裝的時候選中中文包。

使用命令,檢視版本號和支援語言:

三、配置tesseract執行檔案

c:\python36\lib\site-packages\pytesseract\pytesseract.py 找到檔案:

tesseract_cmd = 'tesseract'

修改為:

tesseract_cmd = 'c:/program files (x86)/tesseract-ocr/tesseract.exe'

四、**識別

from pil import image

import pytesseract

path = "img\\text-img.png"

text = pytesseract.image_to_string(image.open(path), lang='chi_sim')

print(text)

作為非常優秀的ocr識別庫,tesseract當然可以訓練自己的資料模型,從而達到為我所用目的,後續文字會介紹如果訓練自己的文字識別庫。

我的github:

出處:

Tesseract OCR 玩轉OCR中文識別

一 準備工作 二 識別 1 進入cmd,進入到要識別的的路徑下。2 輸入命令 tesseract 名稱 生成的結果檔案的名稱 字型檔 tesseract test.jpg result l chi sim三 訓練資料1 將轉換成tif格式,用於後面生成box檔案。可以通過畫圖,然後另存為tif即可。...

Tesseract Ocr文字識別

tesseract的ocr引擎最先由hp實驗室於1985年開始研發,至1995年時已經成為ocr業內最準確的三款識別引擎之一。2005年,tesseract由美國內華達州資訊科技研究所獲得,並求諸於google對tesseract進行改進 消除bug 優化工作。tesseract目前已作為開源專案發...

Python Opencv KNN英文本母識別

特徵集分析 資料集為letter recognition.data,一共為20000條資料,以逗號分隔,資料例項如下所示,第一列為字母標記,剩下的為不同的特徵。t,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8 學習方法 1 讀入資料,並去除分隔號 2 將資料第一列作為標記,剩下...