Tesseract OCR引擎 入門

2021-06-16 08:17:39 字數 1618 閱讀 7504

ocr(optical character recognition):光學字元識別,是指對檔案中的文字進行分析識別,獲取的過程。

tesseract:開源的ocr識別引擎,初期tesseract引擎由hp實驗室研發,後來貢獻給了開源軟體業,後經由google進行改進,消除bug,優化,重新發布。當前版本為3.01.

專案位址為:

windows 命令列使用tesseract-ocr引擎識別驗證碼:

tesseract-ocr-setup-3.01-1.exe

附錄:tessdata 目錄存放的是語言字型檔檔案,和在命令列介面中可能用到的引數所對應的檔案.  這個安裝程式預設包含了英文字型檔。

2、使用tessract-ocr引擎識別驗證碼

開啟dos介面,輸入tesseract:

如果出現如上輸出,表示安裝正常。

我準備了一張驗證碼code.jpg放在d盤根目錄下

結果為:

附錄:usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

pagesegmode values are:

0 = orientation and script detection (osd) only.

1 = automatic page segmentation with osd.

2 = automatic page segmentation, but no osd, or ocr

3 = fully automatic page segmentation, but no osd. (default)

4 = assume a single column of text of variable sizes.

5 = assume a single uniform block of vertically aligned text.

6 = assume a single uniform block of text.

7 = treat the image as a single text line.

8 = treat the image as a single word.

9 = treat the image as a single word in a circle.

10 = treat the image as a single character.

-l lang and/or -psm pagesegmode must occur before anyconfigfile.

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

tesseract    名  輸出檔名 -l 字型檔檔案 -psm pagesegmode 配置檔案

例如:tesseract code.jpg result  -l chi_sim -psm 7 nobatch

-psm 7 表示告訴tesseract code.jpg是一行文字  這個引數可以減少識別錯誤率.  預設為 3

configfile 引數值為tessdata\configs 和  tessdata\tessconfigs 目錄下的檔名

Tesseract OCR引擎 入門

ocr optical character recognition 光學字元識別,是指對檔案中的文字進行分析識別,獲取的過程。tesseract 開源的ocr識別引擎,初期tesseract引擎由hp實驗室研發,後來貢獻給了開源軟體業,後經由google進行改進,消除bug,優化,重新發布。當前版本...

Tesseract OCR引擎 入門

ocr optical character recognition 光學字元識別,是指對檔案中的文字進行分析識別,獲取的過程。tesseract 開源的ocr識別引擎,初期tesseract引擎由hp實驗室研發,後來貢獻給了開源軟體業,後經由google進行改進,消除bug,優化,重新發布。當前版本...

tesseract ocr 學習筆記

由於ocr技術本身屬於乙個比較複雜比較新穎的技術,比較多軟體公司都把它作為 智財權的一部分,網路上比較難找到開發教材。因此,採用一些現有的ocr識別模組將 有助於減少開發時間,增加研發效率。對比了一些商業模組與開源模組,覺得其中tesseract ocr開源模組比較貼合這 次專案的要求 當前專案對文...