Tesseract 3 02中文字庫訓練

2021-06-17 20:42:27 字數 1077 閱讀 7139

為了方便 tif文面命名格式[lang].[fontname].exp[num].tif

lang是語言 fontname是字型

比如我們要訓練自定義字型檔 image 字型名myfont

那麼我們把tif檔案重新命名 image.myfont.exp0.tif

下面開始訓練字型檔:

1、tesseract image.myfont.exp0.tif image.myfont.exp0 -l chi_sim batch.nochop makebox

該步驟會生成乙個image.myfont.exp0.box檔案

把tif檔案和box檔案放在同一目錄,用jtessboxeditor.jar開啟tif檔案,然後根據實際情況修改box檔案

2、tesseract image.myfont.exp0.tif image.myfont.exp0 nobatch box.train

該步驟生成乙個image.myfont.exp0.tr檔案

3、unicharset_extractor image.myfont.exp0.box

該步驟生成乙個unicharset檔案

4、新建乙個font_properties檔案

裡面內容寫入myfont 0 0 0 0 0 表示預設普通字型

5、執行命令

shapeclustering -f font_properties -u unicharset image.myfont.exp0.tr

mftraining -f font_properties -u unicharset -o image.unicharset image.myfont.exp0.tr

cntraining image.myfont.exp0.tr

6、把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上image.

7、執行combine_tessdata image.

然後把image.traineddata放到tessdata目錄

8、用新的字型檔對進行分析

tesseract test.tif output -l image

tesseract 3 02 訓練字型檔全解

最近看到google的tesseract ocr 的文章,深感興趣,就試了試具體實現方法。如果要識別非常規範的字母和數字,直接使用自帶的字型檔就足夠 但是若要識別一些非規則或者手寫的,就要訓練自己的字型檔。下面是我的一些步驟 1 首先準備兩個軟體 jtessboxeditor 2 建立乙個test資...

tesseract 識別中文字元

在tesseract目錄下,有個tesseract.exe檔案,主要呼叫這個執行檔案,用cmd執行到這個目錄下,在這個目錄下同時放置一張需要識別的,這裡是123.jpg 然後執行 tesseract 123.jpg result 會把123.jpg自動識別並轉換為txt檔案到result.txt 然...

linux中安裝中文字型

可能是因為在安裝linux的過程中忘記了選擇支援中文,所以機器在安裝完之後從mozzila訪問中文 全是亂碼,在 檢視 選單中即使選擇gbk的編碼字符集也無效,另外在shell中的中文也為亂碼,openoffice開啟之後也全為亂碼。重灌機器是個苦差事,不想那樣做。於是我選擇了對其進行漢化。第一步 ...