tesseract訓練新字型檔

今天我要講一下如何生成新的識別庫

請注意：在您的電腦上安裝有tesseract軟體和 jtessboxeditor軟體系統為ubuntu

jtessboxeditor：

1.新建乙個資料夾test 該資料夾會儲存本次專案所有的檔案

將需要的字型檔放到test

目錄下，檔名為

lang 為語言

fond

為字型我們用的是

這個檔案需要自己生成。

2.生成

box檔案。

該操作將會生成chi.test.exp0.box檔案。這個檔案描述了裡所有字的框架

3.下面我們就要編輯這個box

檔案

可以看出來檔案識別多錯了，並且文字框架也有不對的，所以我們要對所有的框架編輯。

修改成這樣。中文先用拼音代替。因為這個軟體不能打中文。

將裡面的拼音改成中文

4.執行tesseract chi

這一步生成chi.test.exp0.tr檔案

5.執行unicharset_extractor chi.test.exp0.box

這一步生成unicharset檔案

6.下面就要新建字型檔案

font_properties 檔案內容為test100

107.執行 shapeclustering -f font_properties -u unicharset chi.test.exp0.tr

生成shapetable檔案

8.執行mftraining -f font_properties -u unicharset -o chi.unicharset chi.test.exp0.tr

生成chi.unicharset inttemp這兩個檔案。

9.執行cntraining chi.test.exp0.tr

生成normproto這個檔案

10.下面就要合併這些檔案了，生成乙個字型庫

在inttemp normproto pffmtable加上字首chi.

執行combine_tessdata chi.

（注意chi

後面的那個點必須要輸入的）

如果第2.4.5.6

行不為0.

那麼就算生成了字型庫檔案。

11.測試生成的字型庫檔案。

開啟out.txt

還有一些識別錯誤，需要優化。

tesseract 3 02 訓練字型檔全解

最近看到google的tesseract ocr 的文章，深感興趣，就試了試具體實現方法。如果要識別非常規範的字母和數字，直接使用自帶的字型檔就足夠但是若要識別一些非規則或者手寫的，就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...

Tesseract 資料訓練

1.merge合併樣本檔案生成字尾為.tif格式檔案khm.font.exp0.tif tool merge tiff jtessboxeditor工具 2.生成.box檔案khm.font.exp0.box 注意 l khm psm tesseract khm.font.exp0.tif khm....

將jTessBoxEditor訓練的字型檔合併

整合環境 win10，jtessboxeditor 1.7.3 1.需要生成字符集的.tif和.box這倆個檔案。假設需要合併三個字典liu.宋體.exp0，liu1.微軟雅黑light.exp0，micrsoft.microsoftyaheiuilight.exp0 注個人生成的字典有個人的名...

tesseract訓練新字型檔

tesseract 3 02 訓練字型檔全解

Tesseract 資料訓練

將jTessBoxEditor訓練的字型檔合併

相關推薦