tesseract訓練新字型檔

2022-07-18 03:36:13 字數 1725 閱讀 1525

今天我要講一下如何生成新的識別庫

請注意:在您的電腦上安裝有tesseract軟體 和 jtessboxeditor軟體   系統為ubuntu

jtessboxeditor:

1.新建乙個資料夾test 該資料夾會儲存本次專案所有的檔案

將需要的字型檔放到test

目錄下,檔名為

lang 為語言 

fond 

為字型 我們用的是

這個檔案需要自己生成。

2.生成

box檔案。

該操作將會生成chi.test.exp0.box檔案。這個檔案描述了裡所有字的框架

3.下面我們就要編輯這個box

檔案

可以看出來檔案識別多錯了,並且文字框架也有不對的,所以我們要對所有的框架編輯。

修改成這樣。中文先用拼音代替。因為這個軟體不能打中文。

將裡面的拼音改成中文

4.執行tesseract chi

這一步生成chi.test.exp0.tr檔案

5.執行unicharset_extractor chi.test.exp0.box

這一步生成unicharset檔案

6.下面就要新建字型檔案

font_properties 檔案內容為test100

107.執行 shapeclustering -f font_properties -u unicharset chi.test.exp0.tr

生成shapetable檔案

8.執行mftraining -f font_properties -u unicharset -o chi.unicharset chi.test.exp0.tr

生成chi.unicharset  inttemp這兩個檔案。

9.執行cntraining chi.test.exp0.tr

生成normproto這個檔案

10.下面就要合併這些檔案了,生成乙個字型庫

在inttemp normproto pffmtable加上字首chi.

執行combine_tessdata chi.

(注意chi

後面的那個點必須要輸入的)

如果第2.4.5.6

行不為0.

那麼就算生成了字型庫檔案。

11.測試生成的字型庫檔案。

開啟out.txt 

還有一些識別錯誤,需要優化。

tesseract 3 02 訓練字型檔全解

最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...

Tesseract 資料訓練

1.merge合併樣本檔案生成字尾為.tif格式檔案khm.font.exp0.tif tool merge tiff jtessboxeditor工具 2.生成.box檔案khm.font.exp0.box 注意 l khm psm tesseract khm.font.exp0.tif khm....

將jTessBoxEditor訓練的字型檔合併

整合環境 win10,jtessboxeditor 1.7.3 1.需要生成字符集的.tif和.box這倆個檔案。假設 需要合併三個字典liu.宋體.exp0,liu1.微軟雅黑light.exp0,micrsoft.microsoftyaheiuilight.exp0 注 個人生成的字典有個人的名...