搜档网
当前位置:搜档网 › Tesseract 3.02中文字库训练

Tesseract 3.02中文字库训练

Tesseract 3.02中文字库训练

下载chi_sim.traindata字库

下载tesseract-ocr-setup-3.02.02.exe

下载地址:://https://www.sodocs.net/doc/084625840.html,/p/tesseract-ocr/downloads/list

下载jTessBoxEditor用于修改box文件

下载地址:://https://www.sodocs.net/doc/084625840.html,/detail/a443475601/5896893 里面自带java运行库,安装后然后启动命令行java -jar jTessBoxEditor.jar即可打开

为了方便tif文面命名格式[lang].[fontname].exp[num].tif

lang是语言fontname是字体

比如我们要训练自定义字库image 字体名MyFont

那么我们把tif文件重命名image.MyFont.exp0.tif

下面开始训练字库:

1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox

该步骤会生成一个image.MyFont.exp0.box文件

把tif文件和box文件放在同一目录,用jTessBoxEditor.jar打开tif文件,然后根据实际情况修改box文件

2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train

该步骤生成一个image.MyFont.exp0.tr文件

3、unicharset_extractor image.MyFont.exp0.box

该步骤生成一个unicharset文件

4、新建一个font_properties文件

里面内容写入MyFont 0 0 0 0 0 表示默认普通字体

5、运行命令

shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr

mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr

cntraining image.MyFont.exp0.tr

6、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上image.

7、执行combine_tessdata image.

然后把image.traineddata放到tessdata目录

8、用新的字库对图片进行分析

tesseract test.tif output -l image

相关主题