tesseract ocr訓練方法

2022-07-17 18:51:12 字數 2334 閱讀 8806

tesseract-ocr有2和3兩個版本,不同版本訓練方法稍有不同。

第3版本的訓練方法官版教程在這裡:trainingtesseract3

第2版的訓練方法官版教程在這裡:trainingtesseract

我使用的是最新的3.01版本的。訓練所需準備:

3.一張用來訓練的tiff格式。

在不通過訓練的前提下,使用tesseract來識別乙個訂單號的內容,如圖

發現錯誤率很高,希望通過訓練來提高準確率。

訓練過程:

1.通過合併10張如上圖的合併為一張tiff格式的,如何合併呢?通過jtessboxeditor的merge tiff 來完成,不過他的小缺點就是只能合併多張tiff格式的,如果你的是jpg的,需要先轉換。生成後的tiff叫做orderno.tif

2.make box files。在orderno.tif所在的目錄下開啟乙個命令列,輸入:

e:\tesseract-ocr\tesseract.exe orderno.tif orderno batch.nochop makebox

來生成乙個box檔案,該檔案記錄了tesseract識別出來的每乙個字和其位置座標。

3.使用jtessboxeditor開啟orderno.tif檔案,需要記住的是第2步生成的orderno.box要和這個orderno.tif檔案同在乙個目錄下。逐個校正文字,後儲存。

4.run tesseract for training。輸入命令:

e:\tesseract-ocr\tesseract.exe orderno.tif orderno nobatch box.train

5.compute the character set。輸入命令:

e:\tesseract-ocr\unicharset_extractor.exe orderno.box

6.新建檔案「font_properties」。如果是3.01版本,那麼需要在目錄下新建乙個名字為「font_properties」的檔案,並且輸入文字 :

orderno 0 0 0 0 0

大致意思就是說orderno這個語言的字型為普通字型。

並執行命令:

e:\tesseract-ocr\mftraining.exe -f font_properties -u unicharset orderno.tr

7.clustering。輸入命令:

e:\tesseract-ocr\cntraining.exe orderno.tr

8.此時,在目錄下應該生成若干個檔案了,把unicharset, inttemp, normproto, pffmtable這四個檔案加上字首「orderno.」。然後輸入命令:

e:\tesseract-ocr\combine_tessdata.exe orderno.

會顯示乙個結果如:

combining tessdata files

tessdatamanager combined tesseract data files.

offset for type 0 is -1

offset for type 1 is 108

offset for type 2 is -1

offset for type 3 is 1660

offset for type 4 is 327545

offset for type 5 is 327781

offset for type 6 is -1

offset for type 7 is -1

offset for type 8 is -1

offset for type 9 is -1

offset for type 10 is -1

offset for type 11 is -1

offset for type 12 is –1

必須確定的是第2、4、5、6行的資料不是-1,那麼乙個新的字典就算生成了。

此時目錄下「orderno.traineddata」的檔案拷貝到tesseract程式目錄下的「tessdata」目錄。

以後就可以使用該該字典來識別了,例如:

通過訓練出來的新語言,識別率提高了不少。

Tesseract OCR字元訓練工具及方法

主題 概要tesseract ocr tesseract ocr訓練工具 編輯時間 新建20161008 更正訓練步驟序號 20161225 序號參考資料 第一張是比較正規的,下面主要以它們為例講解這個工具的實現思路。網上關於tesseract ocr的訓練工具都是清一色的jtessboxedito...

Tesseract OCR識別中文與訓練字型檔例項

主要參考 關於中文的識別,效果不一定會好一些但是開源的應該就是tesseract ocr了,所以自己親身試用一下,分享到部落格讓有同樣興趣的人少走彎路。一 準備工作 二 識別 1 進入cmd,進入到要識別的的路徑下。2 輸入命令 1 tesseract 名稱 生成的結果檔案的名稱 字型檔 例如我的識...

Tesseract OCR的簡單使用與訓練

原文 tesseract,一款由hp實驗室開發由google維護的開源ocr optical character recognition 光學字元識別 引擎,與microsoft office document imaging modi 相比,我們可以不斷的訓練的庫,使影象轉換文字的能力不斷增強 如...