搜档网
当前位置:搜档网 › 基于数字结构特征的印刷体数字识别方法

基于数字结构特征的印刷体数字识别方法

论文题目:基于数字结构特征的印刷体数字识别

课程名称:图像处理与分析

学院:信息科学与工程学院

①学生姓名:任磊专业:计算机应用技术

学生学号:2013419 职位:组长

②学生姓名:李铁鑫专业:计算机应用技术

学生学号:2013420 职位:组员

③学生姓名:高智专业:计算机应用技术

学生学号2013423 职位:组员

指导老师:邵虹

基于数字结构特征的印刷体数字识别

任磊1,李铁鑫2,高智3

(1.沈阳工业大学信息科学与工程学院研究生1316班计算机应用技术 2013419;

2.沈阳工业大学信息科学与工程学院研究生1316班计算机应用技术 2013420;

3.沈阳工业大学信息科学与工程学院研究生1316班计算机应用技术 2013423)

摘要:字符识别是模式识别研究的一个重要领域,通过无数人大量的努力,已经取得了丰硕的成果和发现。但是,针对具体和特殊应用的特点的字符识别仍然有很大的研究空间和价值。数字识别是光学字符识别的一个重要研究方向和组成部分,主要是指使用计算机来自动识别阿拉伯数字。一个有效的,可靠的,快速的数字识别系统同时具有很重要的商业用途。本文主要研究脱机的印刷数字的识别,提出了基于数字结构特征的印刷体数字识别方法。本文基于数字识别系统的六层模型(图像获取、图像预处理、图像二值化、数字分割和归一化、数字特征提取、特征分类器六个层次),研究实现每个阶段的算法。通过实验,将本文提出的方法和基于改进的左右轮廓特征的印刷体数字识别方法进行了对比。实验结果表明本文提出的识别算法拥有较好的精度,对噪声和字形变化具有很好的鲁棒性。

关键词:印刷体数字识别;特征提取;模板特征匹配;数字结构特征

Printed Numeral Recognition Based On Digital Structure

Feature

Ren Lei 1, Li Tiexin 2 ,Gao zhi3

(1.Shenyang university of technology institute of information science and engineering

graduate student class 1316 computer application technology, 2013419;

2. Shenyang university of technology institute of information science and engineering

graduate student class 1316 computer application technology, 2013420;

3. Shenyang university of technology institute of information science and engineering

graduate student class 1316 computer application technology 2013423)

Abstract:Character recognition, is an important field of pattern recognition, with the help of a lot of efforts made by millions of people , has achieved fruitful results and findings.However, in the light of the characteristics of concrete and special application of character recognition still has a lot of research space and value.numeral recognition , an important research direction and component of the optical character recognition , is mainly refers to use computer to automatically identify Arabic numerals.An efficient, reliable, fast numeral recognition system also has the very important business purpose.This paper mainly studies the offline printed numeral identification and propose the printed numeral recognition method based on numeral structure characteristics.Based on the six layer model of numeral recognition system .(This six levels image including acquisition, image preprocessing, image binaryzation, numeral segmentation and normalization, feature extraction and feature classifier.), research and realize the algorithm of each phase.Through the experiment, the method proposed in this paper are compared with and the improved printed numeral recognition method based on contour features of left and right.The

experimental results show that the proposed identification algorithm has better precision and robustness for the noise and the font changes.

Key words:Printed numeral recognition;Feature extraction;Matching template feature;numeral structure feature

0.引言

计算机技术的不断发展,使人们的生活中出现了各种各样的自动化设备,这些人工智能,模式识别技术的应用给我们的生活工作带来了极大地便利,我们也越发离不开这些设备和技术。但是,广大学校和企业的研发人员和科技工作者还在不断努力,希望能够提供更多更好更方便的产品和技术。这些努力极大的推动了模式识别,人工智能,机器学习,数字图像处理等技术的发展。其中,字符识别系统是一个得到大量使用的模式识别应用,在我们的身边也可以说是无处不在,每个人都或多或少有所接触。通过大量的应用,字符识别技术也得到了很大的发展。

光学字符识别技术(Optical Character Recognition)主要是指对图片或者视频等上面的字符,通过将文档资料的图像文件转换成黑白点阵,然后通过软件将图像中的文字转换成计算机可以读取的文本格式,从而获取文字信息,以便其他文字处理工具进一步编辑加工的系统技术[1]。字符识别的出现,主要是为了解决高速的计算机处理和低速的人工输入之间的矛盾。人类文明发展到今天,已经积累了大量的文献资料和各种记录,但是计算机的出现只有不到一百年的时间,大规模的应用更是只有短短二三十年的历史,要用计算机来处理这些信息就不得不面对一个如何输入的问题。另外,即使是在今天,大量的信息仍然记录在纸上或者是印刷在各种物品上,如产品编号,车牌号码,将这些信息输入计算机来处理是一项费时费力的工作。这些问题矛盾成了信息化发展的一个瓶颈,解决这个问题的关键就是字符识别技术,字符识别作为一项将各种文字数据高速输入计算机的技术,是实现智能人机接口的非常重要的途径,得到了广泛的研究。

根据字符识别时信号的输入形式,分为联机识别和脱机识别。联机和脱机识别的主要区别在于是否有笔划的信息,目前联机字符识别已达到较高的应用水平,很多智能手机都会有的手写识别系统就是一个联机的字符识别系统。但是,生活中应用比较广泛的还是脱机的字符识别系统,我们接触的大多的字符识别都属于此类。虽然,脱机字符识别已经有了大量的研究发现,但是针对具体和特殊应用的特点研究的字符识别仍然有很大价值。

数字识别是字符识别的一个重要研究方向,主要是指使用计算机自动识别阿拉伯数字。一个有效的,可靠的,简单快速的数

字识别系统具有很广泛的商业用途,它既可以作为一个完整的系统单独使用,也可以作为其他字符识别系统的组成部分。例如,对于各种产品上大量印制的数字编号,利用数字识别系统进行识别和记录,可以有效节约时间和人力;车牌识别系统在城市交通管理中越来越重要,而数字识别系统是车牌识别系统的重要组成部分;数字识别系统在智能安检系统,如身份证,出入证的识别都能发挥关键作用。还有其他诸如文档装换软件等等,数字识别系统都大有用武之地[2-3]。

本文主要研究脱机印刷数字的识别。脱机印刷体数字识别有其不同于其他字符识别的特点,其结构相对稳定,形态变化简单。本文的主要研究目的在于研究利用这个特点,对脱机印刷数字识别的技术进行研究改进,实现一种可靠,快速的字符识别系统。

1. 国内外研究现状

光学字符识别技术发展到今天,国内外都取得了很多成果,使用各种方法提高 OCR 的识别精度,速度,鲁棒性。文献[10]中采用统计网格所占比例做提取的特征,利用模板匹配算法分类识别数字;文献[11]的文字特征采用粗网格特征,这种方法对连续的数字识别具有一定的借鉴应用价值;文献[12]利用图像的矩特征,并使用神经网络的方法来识别字符,取得了较好的实验效果;文献[13]提出利用数字的圈和左右凹陷的结构特征来识别数字的方法;文献[14]利用字符的上横线特征等组合和模板特征匹配识别车牌数字;文献[15]提出了一种利用分级 RBF 神经网络的车牌数字识别方法;文献[16]利用中线特征,点特征等组合起来识别数字字符;文献[17]中作者分别使用反向神经网络和Adaboost 的分类方法来识别车牌中的数字字符;文献[18]主要工作是研究了利用蚁群算法进化神经树的手写字符识别技术;文献[19]提出了利用梯度和曲率的方法来提高字符识别的效率;文献[20]用KNN 的方法识别字符;文献[21-24]分别用不同的方法利用支持向量机解决字符识别问题,都取得了很高的识别率。还有很多不同方法和特征,都取得了较好的实验效果[25-27]。

以上提到的算法都是针对字符识别的一些通用适用于很多情况的字符识别方法和特征。需要研究印刷体数字的结构特点提出新的解决方法,来提高印刷体数字识别的速度和精度。

本文主要对脱机印刷体数字识别的方法进行研究。通常,对于一个数字识别系统,主要包含以下几个过程:数字图像采集,数字图像去噪,数字图像二值化,数字分割和归一化和数字识别。

2 .数字图像预处理

2.1 数字图像采集

数字图像既可以通过联机的摄像设备采集,也可以通过已经保存的图像进行识别。本文采集的图像是利用相机拍摄的发票电子照片。从原理上说,分辨率越高,则保

存的数字信息越多,数字的识别率也就越高,但是相应的计算量也就越大,时间越慢。印刷体数字识别的形态稳定且结构简单,所以识别过程所需要的信息量相对其他识别较少,利用相机拍摄取得的数字图像已经可以取得满足识别的要求。

本文采集的图片来自全国统一启用的印有12位发票代码和8位发票号码的普通发票图片作为识别对象,如图2.1所示。由于该系统只进行印刷体数字的识别,所以对发票图片进行了截图处理。通过截图工具,截取了12位发票代码和8位的发票号码的图片。

图2.1 普通发票图片

图2.2 12位发票代码和8位发票号码图片

2.2 数字图像预处理

图像的预处理主要是指在图像二值化前对图像所进行的处理工作。由于采像环境的变化和采像设备的影响,图像会出现不同程度的分布有噪声和亮度不均匀的情况,这会严重恶化后面的二值化处理的效果。图像的预处理可以有效去除噪声,光照反射等情况的不良影响,增强图像中的有效信息。因此,选择适合的预处理方法将对后续的二值化和识别工作带来很大的便利。2.2.1 图像去噪处理

图像的噪声主要来自于图像的采集和传输过程中图像传感器受到的各种因素的影响,如外界环境条件变化和传感元器件自身的质量。图像的去噪处理要尽可能滤除图像中各种噪声的干扰,得到清晰的真实的数字图像。去噪处理的方法有很多,本文主要研究了自适应中值滤波器来去除噪声的方法。

中值滤波器用像素的相邻区域的像素

的灰度中值代替该像素的灰度值,是最常见的统计滤波器。中值滤波器可以应用的范围非常广泛,它克服了线性滤波器如最小均方滤波、均值滤波等使图像边缘模糊的不良影响,既可以有效去除图像中的不同的噪声,又能够保护图像的边缘和轮廓。但是,中值滤波器只能对空间密度不大的噪声才能取

得比较好的实验效果。相比之下,自适应中值滤波器则可以对比较大的概率的噪声进

行处理,还可以在平滑非冲激噪声的同时保存细节[28-29]。

在本文中,采用 3*3 模板的自适应中值滤波器,对图像的处理结果如图2.3所示:

图 2.3 自适应中值滤波对比图

2.2.2 图像形态学处理

图像的腐蚀运算和膨胀运算作为最基本的形态学运算,是一对对偶运算。灰度图像的腐蚀运算是指对于图像中的任一点,赋值为以其为中心的模板和原图的重合部分的所有点的灰度值的最小值。腐蚀运算能够去除图像的细连接边界点,收缩图像,消除图像不相关细节。可以用来消除小而且无意义的部分。膨胀运算是指对于图像中的任一点,赋值为以其为中心的模板和原图的重合部分的所有点的灰度值的最大值。膨胀运算是能够使图像边界向外扩张,连接断裂的部分的过程。可以用来填补物体中的空洞。

开运算是先对图像使用结构元素进行腐蚀运算,然后再对处理结果进行膨胀运算。开运算用来去除较小的图形、在纤细的部分分离物体、平滑较大图形的边界的同时不明显改变面积。闭运算是先对图像使用结构元素进行膨胀运算再进行腐蚀运算。闭运算通常用来填充目标内细小空洞,连接断开的邻近目标,平滑其边界的同时并不明显改变其面积。

由于开运算和闭运算可以去除比结构元素更小的明亮细节,闭运算可以去除结构元素更小的暗色细节,所以他们经常组合在一起用来平滑图像并去除噪声。所以,本文选用的结构元素大小为 3*3,以这样的结构元素对灰度图像先后进行开运算和闭运算,对图像进行平滑和去噪。图像在进行开运算和闭运算组合处理之后的效果对比图如图2.4所示。

图2.4 开运算闭运算组合处理之后的效果对比图2.3 数字图像二值化

字符图像二值化一般是将 256 色的灰度图转化为只有黑白两色的二值图,在本文中,由于转化后的图像目标为白色,背景为黑色,所以要在图像二值化之前对图像进行反运算。图像二值化是数字识别系统中非常重要的一步,其效果的好坏直接影响到数字的边缘分布,好的二值化算法能够有效区分前景和背景,得到真实的字符边缘,也就可以得到准确的数字特征。

门限处理是一种得到非常普遍的使用的分割方法,在速度方面相对于其他的分割方法有很大的优势。在实际应用中,门限处理的关键是确定合适的分割阈值。自适应阈值分割技术通过试探的手段来逐步逼近最终的门限值[32]。具体的算法流程如下:设定一随机值T′=random(0,255)。以T为阈值,令 T = T′,将图像分割两部分G1,G2,然后计算两部分的平均灰度值

u1,u2。令 T′=(u1+u2)/2,如果T与 T′之间的绝对值之差小于事先的指定值,则图像最终灰度分割阈值定为T,否则就再令

T=T′,重新分割图像。

图 2.5 自适应阈值分割流程图

以下是经过自适应阈值分割的图像二值化结果:

图 2.6 自适应阈值分割后的二值图

3.数字分割

3.1数字分割算法

数字分割的任务是把整个字符串图像中的每个数字切割出来使其成为单个数字的图像。如果数字分割不准确,就很难提取到正确的数字特征,那么识别的正确性就很难保证了。存在很多不同的因素会使字符的切分工作复杂化,如数字字体的多样性,数字大小的不同,以及二值化处理结果的清晰程度,都会对数字切分造成很大的影响。

数字分割有很多种算法,最常用的方法是根据连通域来切分字符。一般来说,每个单独数字都会构成一个连通的图像域,只要得到每个连通域的行和列的起始和终止位置,就得到了字符的最小矩形,也就完成了数字分割的工作。

本文使用投影法对数字进行切割。投影法是一种比较传统的切分字符的方法,有效检测简单的二维目标。在处理过程中面临的主要困难在如何判断是否有数字断裂或者粘连,以及断裂,粘连的数字如何处理,都是切分时的难点[33-34]。

利用投影法将数字水平分开后,就成功地找到了每个数字的左右边界。然后对切分好的每位数字再进行水平投影:即计算每位数字的每一行中属于数码的象素数目,这样可以找出每个数字的高度值。

3.2数字分割预处理

本文在运用投影法对数字进行切割之前,,要进行一些简要的处理,主要分两个处理环节。第一个环节是切除数字周围多余的黑色背景,第二个环节是噪声粘连区域修复的环节。经过这两个环节的处理,可以方便实施投影法对数字串进行单个数字的切割,同时又有效地避免数字之间的噪声点对数字分割的干扰。

切除数字周围多余的黑色背景,实际上是投影法的延伸应用,相当于确定连续数字串的整体上下左右边界,得到数字串图像的最小矩形,这个处理的环节与结合后来的投影法对数字进行切割,更有助于接下来的数字分割。

噪声粘连区域修复的环节,是针对具体的识别对象加入的特别处理环节。如图3.1所示,由于数字区域有印章的痕迹较大,图像预处理很难全部滤除这些噪声,导致进行数字分割处理时候,把面积较大的噪声粘连区域分割出来,这为后面的数字识别工作打来严重的干扰。所以必须想办法修复噪声粘连区域。

图3.1 分割出来的噪声粘连区域

本文针对以上问题,采取措施是首先通过统计求出数字的最小连通面积smax=160,设置smax作为数字连通面积的阈值。该阈值作为判断图片非数字的噪声区域的门限值,用于识别占有粘连噪声区域。接下来,针对图像中连通面积低于160的,判定为噪声粘连区域。最后,对噪声粘连区域进行反色处理,从而消除分割过程中的噪声粘连区域和去噪环节无法去除的杂点,从而进行正常的数字分割。

3.3数字归一化

为了使输入的数字在提取特征时有一

致的标准,通常需要对数字图像进行归一化

处理,如大小归一化,位置归一化等。一个

有效的归一化算法,可以有效提升系统识别

不同字体,大小的稳定性。

数字大小归一化是指对不同大小的数

字作几何变换,使之成为同一大小尺寸。数

字大小归一化要求保持数字的拓扑结构不

能改变,最大限度地降低数字的失真,以便

提高识别准确率。令f(x,y)为原图像,

g(x′,y′)为归一化后的图像,归一化后的

图像与原图像的坐标之间的映射关系为:

x=ηx′ (3-1) y=εy′ (3-2)

其中:

η=width / width′ (3-3)

ε=height / height′ (3-4)

width,width′分别表示原图像和归一

化后图像的宽度,同时,height和height′

分别表示原图像和归一化后图像的高度。归

一化后( x′, y′)点的灰度值为:

g(x′,y′)=f(x,y) (3-5)

输出点可能会被映射到原图像的浮点

数的位置,这就需要使用插值算法来计算该

点的像素值。插值算法包括最邻近插值法、

双线性插值法、高阶插值法等[35-36]。

双线性插值的效果好于最邻近插值,但

是计算要复杂,运算时间也长些。设原图像

点(x ,y)周围四个像素点分别为(i,j),(i, j+1),(i+ 1,j),(i+1, j+1),双线性插值通过以下公式来计算:

u = (1?λ) f (i,j ) + λf (i,j+1)(3-6) v = (1?λ) f (i+1,j ) +

λ f (i+1,j+1) (3-7) g ( x′, y′) = (1?μ)u + μv (3-8)

其中λ=|x ? i|,μ=| y ? j|。

双线性灰度插值有时可能会退化图像

的细节。虽然使用高阶插值能够避免这种退化,但计算量比较大,执行速度比较慢。一般情况下,双线性插值算法已经能够满足要求,而且实现较高阶插值简单,故本文使用双线性插值算法将各个数字图像归一化为20x40 像素大小。对通过投影法分割得到的单个数字图像,进行数字大小归一化的效果,如图3.2所示:

图3.2 图像大小归一化后的数字分割结果4.数字识别

4.1数字识别算法

4.1.1 模板匹配方法

模板匹配的分类方法是一种原理简单

并且应用较早的经典的分类算法。其基本思想是通过为每一个模式类都定义一个典型

的标准模板,然后逐个比较待识别样本与标准模板,根据比较的相似程度来决定样本所属的模式类别。模板匹配方法识别与数字模板字体一致的数字时的识别率很高,但是模板匹配的方法对噪声的适应性不好,并且对数字的不同字体也不具有适应性,当数字的字体字形变化时,方法的识别率就不是很理想,另外,模板匹配的计算量通常都比较大,时间开销比较多。

模板匹配的关键是选择合适的度量方

法衡量模板图像和待识别图像间的相似度,往往使用两者之间的距离来衡量,距离越小,相似度越高。因此模板匹配可以说是一种最小距离分类器。距离度量的方法有很多种,如欧氏距离,曼哈顿距离等。

模板匹配识别数字,首先建立 0-9 这十个数字的标准模板。选择出现最多的字体的边缘比较完整清晰的图片作为标准模板,并且对标准图像大小归一化为 20*40 大小。将待识别数字的图像也大小归一化为

20*40,然后计算待识别数字的图像与标准库中各个数字的标准模板之间的欧氏距离,与待识别字符距离最小的模板数字就是识

别结果。

4.1.2 模板特征匹配

模板特征匹配相比模板匹配,并不是直接比较图像之间的相似度,而是通过对模板和待识别图像提取相应的特征,并比较特征之间相似成度来实现识别的目的。特征匹配方法是一种使用率比较高的分类方法,相比较一般的模板匹配而言,它具有较好的速度

和鲁棒性。特征匹配方法的关键在于选择合适的能更好地反应字符的结构和特点的特征。

4.1.3改进的左右轮廓特征的印刷体数字识别算法

改进的左右轮廓特征的印刷体数字识

别算法,是模板特征匹配的一个典型应用。它的的主要思路是,把单个数字水平分为六部分,可以均匀分为六分,也可以不均匀分,可以根据字符字体的特点进行相应的调整。在特征提取过程中,不再是扫描每一行的连续黑色像素点的个数,作为该行的左(右)轮廓特征。而是对靠近上下边缘和中间的位置采样密度大些。取样的位置选择斐波那契数列进行取样。斐波那契数列为 1,1,2,3,5,8,若选择 5 个数字,则选择 1,2,3,5,8 位置处进行取样,既在第一部分和第六部分靠近上下边缘处,第三部分和第四部分靠近中间处开始的 1/8,2/8,3/8,5/8,8/8 的位置取样。利用公式得到所需的左侧边缘的特征,共20个。

对于数字的右边缘来说,因为右轮廓的边缘很大程度上和左边缘一致,所以在右边缘抽样时只在第三和第四部分取样,采样方式采用和左边缘一样的不均匀采样,这样会得到 10 个特征,不过为了提高对“2”和“7”间的对比,对字符的第六部分进行采样,采样方式如前,只是只采样 4 个特征,为 1/8,2/8,3/8,5/8 四个位置。这样对图像的左右边缘特征提取后为一个34维的特征向量。

最后通过提取算法得到的为34维的特征向量,使用欧几里德距离来比较特征向量之间的相似度。计算待识别数字的特征向量与标准库中各个数字的标准模板特征向量的欧氏距离,选择距离最小的模板字符作为识别结果。

4.1.4基于数字结构特征的印刷体数字识别算法

本文提出了基于数字结构特征的印刷体数字识别算法,多特征抽取和模板特征匹配的方法来实现印刷体数字的快速识别。

通过提取算法得到的为10维的特征向量,使用欧几里德距离来比较特征向量之间的相似度。计算待识别数字的特征向量与标准库中各个数字的标准模板特征向量的欧氏距离,选择距离最小的模板字符作为识别结果。

与改进的左右轮廓特征的印刷体数字识别算法相比,本算法计算的维度减少,计算量和计算时间相比模板匹配会有效减少。另外由于比较的特征也响应降低,增强了方法对噪声和形变的适应性。

4.2 多特征提取

基于印刷体数字结构,本文提取了数字的3类特征:横竖线,过线数,横贯间隙。其中横竖线特征10个,过线数2个,横贯间隙4个,总计10个特征,由此组成10维的特征向量。

4.2.1横竖线

根据数字的结构特征,数字中有可能存

在横线或者竖线特征。于是,在水平方向上,定义比例:

HoriR = nHWhiteNum/nWidth(4-1)其中:nWidth为图像的宽度,用像素点个数来度量,nHWhiteNum为水平方向上白像素点连续出现的个数。

若0.75 <= HoriR <= 1,则认为该数字中这些连续出现的白像素点构成了一条横线。

根据横线在数字中的不同位置,我们定义:从左上角开始的横线为上横线,从左下角开始的横线为下横线。

具体的实现方法是扫描每行中白色像

素点所占的比例HoriR,扫描五行,若有连续三行HoriR满足横线定义则判定确定有上(下)横线特征。

以数字 1、5 为例,根据上述的描述,易知:1有一条下横线,5有一条上横线。如图 4.1所示:

图4.1 横线特征

与横线特征原理相同。在垂直方向上,定义比例:

VertR = nVWhiteNum/nHeight(4-2)其中:nHeight为图像的高度,用像素点个数来度量,nVWhiteNum为垂直方向上白像素点连续出现的个数。

若0.6 <= VertR <= 1,则认为该数字中这些连续出现的白像素点构成了一条竖线。

根据竖线在数字中的不同位置,我们定义:从左下角开始的竖线为左竖线,从右下角开始的竖线为右竖线。

具体的实现方法是扫描每列中白色像素点所占的比例VertR,扫描三列,若有连续两列VertR满足竖线定义,

同时保证这些白色像素点是连续的,中间不能有黑色像素点,则判定为左(右)竖线特征。

以数字0为例,根据上述描述易知:0有一条左竖线,有一条右竖线。如图4.2 所示:

图4.2 竖线特征

4.2.3过线数

当每条扫描线穿越白像素区域边界是,有黑白像素的跳变或者起始位置为白色像素点,这样的情况判定为扫描线与数字区域相交。计算并统计每条扫描线穿越白像素区域的交点数,求得所有扫描线对应交点数的最大值,将该最大值定义为该数字的过线数。不难理解,过线数的扫描线分为水平扫描线和垂直扫描线两种,同时水平(垂直)

扫描线的区域和数量,都是可以选择的。比如,水平过线数可以分为上中下三个部分,可以选择扫描其中一个部分,或者每行都进行扫描。根据对0-9这10个数字的结构的分析和对比,本文采用了水平过线数和右垂直过线数作为将要提取的2个过线数特征。

水平过线数计算方法是水平扫描图像

所有行发生黑白跳变或者首个像素点为白,均视为与扫描线相交,取所有行交点的最大值,作为水平过线数。

以数字6为例,如图4.3 所示,显见:数字6的水平过线数为2。

图 4.3 水平过线数

右垂直方向过线数的计算方法是垂直

扫描右半部分所有列发生黑白跳变或者首

个像素点为白,均视为与扫描线相交,取所有列交点的最大值,作为右垂直过线数。

以数字6为例,如图4.4 所示,显而易见:数字6的右垂直过线数为3。

图 4.4 垂直方向过线数4.2.3横贯间隙

横贯间隙是指某个区域内某行全部是黑像素,称为存在横贯间隙。本文对单个数字图像分为左上、右上、左下和右下四个区域,针对这四个区域判定是是否存在横贯间隙。由此对应定义四个特征分别是:左上横贯间隙、右上横贯间隙、左下横贯间隙和右下横贯间隙。这些特征的提取更能体现数字的结构特征,更有利于提高识别结果的准确性。

左上横贯间隙的判定方法是扫描图像左上部分,超过两行全部为黑像素则确定为左上横贯间隙。同理右上横贯间隙也是扫描图像右上部分,超过两行全部为黑像素则确定为右上横贯间隙。

左下横贯间隙的判定方法是扫描图像左下部分,连续两行全部为黑像素则确定为左下横贯间隙。同理右下横贯间隙也是扫描图像右下部分,连续两行全部为黑像素则确定为右下横贯间隙。

以数字3,5,2为例这四类横贯间隙特征如图4.5所示。

图4.5 四类横贯间隙特征

以上述原理为依据,我们以宋体为例,

对数字 0~9进行特征抽取,得到它们的特征值,如表4.1 所示。

表 4.1 数字0~9

的特征值

4.3 数字模板特征匹配

在完成特征提取之后,待识别数字和数字的标准特征矩阵进行匹配。其中特征矩阵由0~9这10个数字的10维特征向量组成。特征匹配的方法是先建立待识别数字的10维特征向量,而后求得与10个标准数字的特征向量的欧式距离,距离最小的特征向量对应的数字作为最终的识别结果。

5.实验结果与分析

5.1 实验设计

评价一个数字识别系统的指标,主要就正确识别率和运行时间。本文把数字正确识别率和运行时间,作为评价标准,与同属于模板特征匹配方法的基于改进的左右轮廓特征的印刷体数字识别方法进行对比。在程序运行设备、运行软件版本、识别对象以及图像预处理和数字分割环节完全一致的情况下,比较两种识别算法的正确识别率和运行时间,从而对识别算法进行客观公正的评价。

实验选取的图片来自全国统一启用印有12位发票代码和8位发票号码的普通发

票图片作为识别对象。由于该系统只进行印刷体数字的识别,所以对发票图片进行了截图处理。通过截图工具,截取了12位发票代码和8位的发票号码的图片,并统一转换成JPG 格式的图片文件。

实验使用的PC 机的基本信息如图5.1

所示,软件运行环境是Matlab R2013a 版本。

图5.1 实验使用计算机的基本信息

5.2 实验结果

如图5.2和5.3分别是本文提出的识别算法在12位发票代码和8位发票号码的识别效果图。

图5.2 12位发票代码识别结果图

图5.3 8位发票号码识别结果图

通过测试12张12位数字的发票代码图片,和12张8位数字的发票号码图片,总计240个数字,对基于改进的左右轮廓特征的印刷体数字识别算法和本文提出的基于数字结构特征的印刷体数字识别算法的实验结果进行了对比。实验对比数据如表5.1所示。

表5.1 实验对比数据5.3 实验分析

根据表5.1的实验对比数据,可以看出本文提出的基于数字结构特征的印刷体数字识别算法的识别率明显高于基于改进的左右轮廓特征数字识别算法,而且运行时间相当于减少了一半,具有明显的优势。

虽然两种方法的匹配方式都是进行模板特征匹配。但是在前期的特征提取环节中,对于特征的选择上,本文的方法更能体现数字的结构特征,区分度更大;在特征数量的确定上,本文的算法提取的特征位数明显降低,仅提取10维特征,并且得到很好地识别效果。

由于只是比较提取的特征,虽然增加了提取特征的过程,计算量还是有效减少,因此,识别的时间较少,但是由于信息量的减少,识别率会有所下降,但是由于是比较字符的特征,对字体的变化有了一定的适应性,对噪声的鲁棒性也增加了。

但是本文的算法在实验过程中,还是存在一些问题的。本方法识别率距离达到测试图片完全识别的程度还有很大的差距。究其原因总结有三个方面。第一,通过拍摄或扫描的图片清晰度各异,经过图像预处理后图片出现不清晰现象;第二,由于特征提取算法本身的问题,提取的特征可能出现误差;第三,在计算欧氏距离时候,可能出现欧氏距离相等的情况,从而识别错误。

6 结论

本文提出了基于数字结构特征的印刷

体数字识别算法,按照图像预处理、数字分割、数字识别几个主要的流程,完成了对每一个环节算法的选择和实现。

在图像预处理阶段,使用了中值滤波法和形态学处理方法。在图像二值化的过程中,主要学习使用的是自适应阈值的分割方法。另外,为了提取数字特征的需要,研究了数字分割和大小归一化的算法,以及提出了所遇到具体问题的解决方法。在特征提取过程中,针对现有的能够充分利用印刷体数字识别特点的特征提取算法进行改进,提出了提取横竖线特征、过线数和横贯间隙三种数字结构特征,新方法不但能够更加准确的提取反映数字结构的特征,提高了识别的精度和速度,取得了较好的识别效果。在分类器的构造过程中,重点对比了模板匹配和模板特征匹配两类方法,本文利用的是模板特征匹配方法,得到了满意的识别效果。在相同实验环境下,将本文提出的算法与基于改进的左右轮廓特征数字识别算法,在识别率和识别速度进行了对比和分析。

总的来说,通过对新的特征提取方法的研究和实现,为印刷体数字识别提供了新的解决途径和思路。本课题提出的数字识别的新方法是一种取得较好实验结果的方法,前景广阔,非常有使用价值和改进的价值。

参考文献(References):

[1]林晓帆,丁晓青, 吴佑寿, 手写数字识别的原

理及应用

[2]Ching Y. Suen, Jinna Tan. Analysis of

errors of handwritten digits made by a multitude

of classifiers. Pattern Recognition Letters archive. Vol. 26, 2005: 369-379 [3]G. Louloudis, B. Gatos, I. Pratikakis, C.

Halatsis, Text line detection in handwrittendocuments, Pattern Recognition archive, Vol. 41, Issue 12, 2008: 758-3772

[4]Shunji Mori, Ching Y Suen, kazuhiko

yamamoto, historical review of OCR researchand development,proceedings of the IEEE. 80(7):1029-10301992

[5]V K Govindan, A P Shivaprasad, Character

recognition review, Pattern Recognition,23(7):671-683, 1990. [6]张忻中, 汉字识别技术, 清华大学出版社,

1992

[7]朱小燕, 史一凡, 马少平, 手写体字符识别

研究, 模式识别与人工智

能,113(2):174-180,

[8]张中, 汉字识别技术综述.语言文学应用,

1997 (2)

[9]张德喜, 手写体机器识别技术的现状分析.

许昌师专学报, 1999(3)

[10]安然, 基于图像技术的卡片喷码字符自动

识别检测的研究, 北京科技大学硕士论文, 2007

[11]景辉, 卡片喷码识别系统字符识别方法的

研究[, 华南理工大学硕士论文, 2005 [12]褚铭珠, 含噪数字识别的研究和应用, 华北

电力大学硕士论文, 2006

[13]叶飞, 基于整体特征的数字字符识别在自

动车牌识别系统的研究和应用, 山东大学

硕士学位论文, 2006

[14]倪桂博, 印刷体文字识别研究, 华北电力大

学硕士学位论文, 2007

[15]柴兰娟, 曾黄麟一种基于分级神经网络的

车牌字符识别新方法, 现代电子技

术,34(1):207-210, 2011

[16]Zhang Ping, Chen Lihui, Alex C Kot, A

Floating Feature Detector for Handwritten Numeral Recognition, Pattern Recognition, Proceedings 15th International Conference on, 2000 [17]黄承清, 基于神经网络的字符识别算法研

究, 北京化工大学硕士学位论文, 2010 [18]董立乾, 基于多特征和 SVM 的车牌字符识

别, 东南大学硕士学位论文, 2009

[19]Meng Shi, Yoshiharu Fujisawa, Tetsushi

Wakabayashi, and Fumitaka Kimura,Handwritten numeral recognition

using gradient and curvature of gray

scale image,Pattern Recognition,

35(10):2051-2059, 2002.

[20]Anilkumar N Holambe, Comparative Study

of Devanagari Handwritten and printed

Character & Numerals Recognition using

Nearest-Neighbor Classifiers,Computer

Science and Information Technology

(ICCSIT), 3rd IEEE International

Conference on,2010

[21]G.Hemantha Kumar, Chinese Numeral

Recognition using Gabor and SVM,

DocumentAnalysis and Recognition,

ICDAR '09. 10th International

Conference on , 2009.

[22]李雅琴, SVM 在手写数字识别中的应用研究,

华中师范大学硕士学位论文, 2007

[23]吴琳琳, 基于 SVM 技术的手写数字识别的

研究, 山东师范大学硕士学位论文,2006 [24]陶亮, 基于 SVM 的验证码识别算法研究,

安徽大学硕士学位论文, 2010

[25]Adnan Amin, hand-printed arabic

character recognition system using an

artificialnetwork, pattern recoonition, 29(4):663-675, 1996

[26]Toru Wakahara, Kazumi Odaka, Adaptive

Normalization of Handwritten

CharactersUsing Global/Local Affine

Transformation, Pattern Analysis and

MachineIntelligence,

20(12):1332-1341,1998

[27] Jinhai Cai, Zhi Qiang Liu, Integration

of structural and Statistical

Information forUnconstrained

Handwritten Numeral Recognition,

Pattem Analysis and Machine

Intelligence, 21 (3):263-270, 1999 [28]冈萨雷斯, 数字图像处理, 电子工业出版社,

2003

[29]刘伟自适应中值滤波在数字图像处理中的

应用, 河北理工大学学报 29(4):111-114,

2007

[30]吕植勇严新平磨粒图象背景光照不均匀分

布图象预处理润滑与密封, 9(5):34-37,2005

[31]Sen Wang, Wei Wei Zhang, Fingerprint

classification by directional fields -Multimodal Interfaces, Proceedings.

Fourth IEEE International Conference on,2002.

[32]李旭, 平稳背景下器件成像多余物检测技

术, 华中科技大学硕士学位论文, 2010 [33]曹志宏, 维吾尔文字联机手写体识别系统

的研究与实现, 新疆大学硕士学位论文, 2007

[34]王叶, 车牌识别系统中字符切分和识别技

术的研究, 北京邮电大学硕士学位论

文,2009

[35]谢伟生, 车牌定位与字符分割算法的研究

与实现, 西南交通大学硕士学位论文,2010 [36]Tran Due Duan, Tran Le Hong Du,Building

an Automatic Vehiele License Plate Recognition System, Computer Seienee.

2:21-24, 2005

[37]吕岳,基于左右轮廓特征的打印体邮政编码

数字快速识别, 通信学报, 7:93-96,1997 [38]黄山, 车牌识别技术的研究和实现, 四川大

学博士学位论文, 2005

[39]马碧燕, 纵横投影的七段码"8"字型手写数

字识别, 广东工业大学学报, 2006

[40]Tom M Mitchell, 机器学习, 机械工业出版

社, 2003

[41]张学工, 关于统计学习理论与支持向量机,

自动化学报, 26(1):32-42, 2000

[42]边肇祺, 张学工, 模式识别, 清华大学出版

社, 1999

[43]Vapnik V N, Estimation of Dependencies

Based on Empirical Data.SPringerg, 1982 [44]Vapnik V N, 张学工译, 统计学习理论的本

质, 清华大学出版社, 2000.

[45]柳回春, 马树元.支持向量机的研究现状,

中国图象图形学报, 7A(6): 618-623,2002

相关主题