Tessract 訓練流程

2021-07-10 09:30:19 字數 2169 閱讀 7165

參考鏈結

建立training_text.txt檔案

利用text2image工具將training_text.txt檔案生成對應的影象檔案eng.freemono.exp0.tif和box資訊檔案eng.freemono.exp0.box

text2image –text=training_text.txt –outputbase=[lang].[fontname].exp0 –font='font name' –fonts_dir=/path/to

/your/fonts

3.利用tessrect來訓練

act

[lang].[fontname]

.exp

[num]

.tif

[lang].[fontname]

.exp

[num]

box.train

.stderr

4.生成字符集資訊,這需要用到乙個叫unicharset_extractor的訓練工具

用法為:

unicharset_extractor lang.fontname

.exp0.box lang.fontname

.exp1.box …

這一步會生成乙個名為unicharset的文字檔案,正如其名字表明的,這個檔案記錄的是乙個字符集,它存有box檔案裡面不重複的字元資訊,每個單獨字元佔一行。

5.建立字型資訊檔案font_properties

6.聚合

shapeclustering, mftraining及cntraining的用法:

shapeclustering -f font_properties -u unicharset lang.fontname

.exp0.tr lang.fontname

.exp1.tr …

mftraining -f font_properties -u unicharset -o lang.unicharset lang.fontname

.exp0.tr lang.fontname

.exp1.tr …

cntraining lang.fontname

.exp0.tr lang.fontname

.exp1.tr …

shapeclustering 會生成乙個shapetable檔案

mftraining會生成三個檔案:eng.unicharset, inttemp, pffmtable

cntraining會生成乙個normproto檔案

7.合成,生成.traineddata檔案:利用combine_tessdata工具來生成:

combine_tessdata eng.
combine_tessdata

usage for combining tessdata components:

combine_tessdata language_data_path_prefix

(e.g. combine_tessdata tessdata/eng.)

usage for extracting tessdata components:

combine_tessdata -e traineddata_file [output_component_file…]

(e.g. combine_tessdata -e eng.traineddata eng.unicharset)

usage for overwriting tessdata components:

combine_tessdata -o traineddata_file [input_component_file…]

(e.g. combine_tessdata -o eng.traineddata eng.unicharset)

usage for unpacking all tessdata components:

combine_tessdata -u traineddata_file output_path_prefix

(e.g. combine_tessdata -u eng.traineddata tmp/eng.)

caffe訓練流程

l 準備訓練資料流程如下 用指令碼生成好label.txt標籤檔案,格式如下 檔名 空格 標籤 把所有放在乙個目錄下後cd到執行如下命令 convert imageset flags rootfolder listfile db name 其中db name後面還可以跟一些可選的引數設定,具體有哪些...

caffe ssd訓練流程

資料處理 1.準備資料集放於 work ssd caffe data traindata裡面jpegimages,annotations 修改引數1 txt.py 裡的 tv 引數,表示 訓練用了多少資料,剩下的就是測試資料。修改引數2 labelmap voc.prototxt裡的標籤 item ...

caffe訓練資料流程

cifar10訓練例項 sudo sh data cifar10 get cifar10.sh 2.轉換資料格式為lmdb sudo sh examples cifar10 create cifar10.sh 轉換成功後,會在 examples cifar10 資料夾下生成兩個資料夾,cifar10...