搜档网
当前位置:搜档网 › 基于n-gram中英文字符串分割算法实现

基于n-gram中英文字符串分割算法实现

基于n-gram中英文字符串分割算法实现
基于n-gram中英文字符串分割算法实现

本栏目责任编辑:代影数据库与信息管理Computer Knowledge and Technology 电脑知识与技术第8卷第23期(2012年8月)基于n-gram 中英文字符串分割算法实现

何晓明,洪亲,蔡坚勇,林鸿

(福建师范大学仓山校区光电与信息工程学院,福建福州350007)

摘要:相似字符串的模糊查询是信息检索的重要组成部分,一直是人们研究的热点。目前基于关键词的查询技术都是前缀匹配,无法查找到与搜索字符串相似的结果。该文提出一种基于n-gram 的中英文字符串分割技术的算法,该技术主要是对字符串进行中英文识别,然后基于n-gram 按照指定长度进行分割,该技术是实现基于关键词的模糊查询技术的基础。该技术在数据清洗以及学位论文TMLC 系统和垃圾邮件过滤等方面也有重要的应用前景。

关键词:模糊查询;n-gram;字符串分割;编辑距离;数据挖掘

中图分类号:TP391文献标识码:A 文章编号:1009-3044(2012)23-5530-04

Implementation of Algorithm Based on n-gram Chinese-English String Segmentation

HE Xiao-ming ,HONG Qin ,CAI Jian-yong ,LIN Hong

(College of Photonic and Electronic Engineering of Fujian Normal University Cangshan Campus,Fuzhou 350007,China)

Abstract:Similar string of fuzzy query is an important part of the information retrieval,has been the hotspot of the research.The keyword search technology is the prefix matching,unable to find similar results with the search string.This paper presents a n-gram based in the Chi ?nese-English string segmentation algorithm,the technique is mainly to string recognition based on n-gram in Chinese-English,then in ac ?cordance with the specified length of segmentation,the technique is realized based on keywords fuzzy query technology based.The tech ?nology in data cleaning and dissertations TMLC system and spam filtering has important application prospect.

Key words:fuzzy query;n-gram;string segmentation;edit distance;data mining

自从改革开放以来,中国与世界各国的联系一步一步地加强。这种不断加强的联系表现在信息的表达形式上是凸显的。在日常生活查找信息时,我们很容易看到一些中英文混合使用的表达方式。比如:中国各省人均GDP ,windows 操作系统,3G 手机,3D 电影,做CT ,ICU 病房等。面对这样一个新形势的信息爆炸时代,如何从互联网的海量信息中快速准确地找到我们所需的信息成为一个难题[1]。

在信息爆炸时代里,搜索引擎已经成为千千万万网民上网的必备工具。但是随着信息量的不断增长,人们在在进行查询的时候,有可能输入错误的信息(比如错误的字母,错误的数字,错误的同音汉字)。在这些一种情况下,用户可能就无法得到想要的查询结果。尽管目前已经有些搜索引擎中加入了“您是否要找***”等类似的功能[2],但这依然无法快速准确的满足用户的查询要求。因此,如何从海量的中英文数据中查找出与查询字符串相类似的查询结果,是该文努力研究的方向。目前,已经有人提出了基

于n-gram 的字符串分割的算法实现[3]。该算法只针对英文字符串,能解决在英文信息检索中基于关键词的查询技术前缀精确匹配

问题[4],也就是检索结果是“错误的输入,错误的输出”,还能解决用户因记忆模糊或误输入单词中的个别字母,甚至在数据库中可能存在某些不正确的数据即“脏数据”的这些情况下可能无法得到用户所期待的查询结果[5]。已有的算法针对的是英文数据,对中英文这样的数据束手无策。为此,该文提出一种改进的解决方法,首先对关键词进行中英文识别,然后根据指定长度对字符串进行分割。综上所述,该文对基于关键词的传统查询方法和基于n-gram 的字符串分割的算法进行了分析,提出了基于n-gram 的中英文字符串分割的算法。

1基于关键词的查询

1.1传统的查询方法

随着网络通信的快速发展,信息爆炸已经成为一个不可避免的趋势。当人们面对如此巨大的信息量时如何从互联网的海量信息中快速准确地找到我们所需的信息成为一个难题。此时,搜索引擎已经成为千千万万网民上网的必备工具。互联网上已有的搜索引擎可分为两种:目录式搜索引擎和基于关键词的搜索引擎,后者处于主流地位[6]。基于关键词查询一般都是精确匹配,其不足收稿日期:2012-07-12

基金项目:福建省自然科学基金项目(2010J01324)

作者简介:何晓明(1983-),男,福建泉州人,硕士,研究方向为数据库;(通讯作者)洪亲(1964-),女,高工,研究方向为数据库,电子邮

箱为hongqin@https://www.sodocs.net/doc/fc8642872.html, ;蔡坚勇(1962-),男,副教授,研究方向为光电信息处理与网络通信;林鸿(1987-),男,硕士,研究

方向为嵌入式数据库。

E-mail:jslt@https://www.sodocs.net/doc/fc8642872.html, https://www.sodocs.net/doc/fc8642872.html, Tel:+86-551-56909635690964ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.8,No.23,August 2012.5530

数据库与信息管理本栏目责任编辑:代影Computer Knowledge and Technology 电脑知识与技术第8卷第23期(2012年8月)之处是:当检索者因为记忆错误或操作错误而输入错误查找信息,甚至因为数据库本来已存有错误的信息,而无法找到想要的信息。为此该文对原有算法进行了改进,提出了基于n-gram 的中英文字符串分割的算法实现,可对中英文信息实现基于关键词的模糊搜索。

1.2基于n-gram 的字符串分割技术的查询方法

该查询方法可以避免基于关键词查询技术的完全匹配的问题。当用户在操作失误或记忆不清时输入有误的查询信息时,利用基于n-gram 的中英文字符串分割技术的查询方法,用户将可以找到自己需要的信息。现将显示基于关键词查询的主要流程图(如

图1)[7]和基于n-gram 的字符串分割技术查询的主要流程图(如图2)

图1

传统基于关键词查询的主要流程图

图2基于n-gram 的字符串分割技术查询的主要流程图

其中,分割后的字符串可通过编辑距离[8],余弦相似度[9],Jaccard 系数[10]来计算字符串的相似程度,进行数据清洗实现模糊搜素。现在以基于编辑距离的查询技术举例。先定义编辑距离,将子串r1转换成r2所需要的字符编辑操作(删除、插入、替换)的次数定义为r1和r2之间的编辑距离,写作ED(r1,r2)。

比如当我们输入查询子串“做CT ”且设定检索出的结果与输入查询子串允许一个字符不同(即编辑距离ED =1)时,那么我们可能得到的结果是“*做CT ”、“做*CT ”、“做C*T ”、“做CT*”、“做*T ”、“做C*”,其中*表示可以是空或任意一个英文字符。我们还可以假设编辑距离ED=2,那么我们可能得到的结果是“做**”、“**CT ”、“做C**”等结果,其中*表示可以是空或任意一个英文字符,两个连续*才可以表示一个汉字。这样的话,即使用户在输入一个错误的查询汉字或英文,或者输入两个错误的英文查询子串,或者存储数据库中存在的某种程度有错误的记录,也都可以作为查询结果返回给用户,而这些记录很有可能就是用户所需要的结果。

因此,这种新的查询技术应用在中英文混合表达的信息中,将帮助人们更加快速准确找到他们所需的结果。而要实现上面所述的这种中英文模糊查询,首先将整个数据集进行字符串分割,创建倒排索引[11],然后再对用户输入的查询字符串进行字符串分割,最后把分割后的子串与倒排索引中的字符串片段进行模糊匹配[12],将候选结果与输入字符串按照编辑距离进行匹配后得到最后结果。可见,中英文字符串的分割技术是中英文信息实现基于关键词的模糊搜索的基础。

2基于n-gram 的中英文字符串分割技术

2.1n-gram n-gram [13]的定义:Z 是一个字符串。|Z|表示Z 的长度,Z[i]是Z 中第i 个字母/汉字(i 从1开始),Z[i,j ]是Z 中从第i 个到第j 个字母/汉字,n 是一个整数。A(Z,n)表示字符串Z 中所有的n-gram 的集合,如Z =windows 操作系统,n =4,则A(Z,n)={(1,wind),(2,indo),(3,ndow),(4,dows),(5,ows 操),(6,ws 操作),(7,s 操作系),(8,操作系统)}。在本算法中,字符串中的数字和空格也将分割,而中文标点符号将剔除处理,不考虑其作为分割的字符。

2.2算法的实现

该算法根据指定的长度和n-gram 的规则进行字符串分割,其流程图如图3所示。

该算法的主要函数如下:

(1)isAChinaFont(参量cn)

这个函数是用来识别输入的字符是不是中文字符,cn 表示输入的字符。

(2)StringLen_Function(参量cPtr)

这个函数是先调用函数(1)对字符串中的字符进行识别,后统计字符串的字符个数,cPtr 表示需要分割字符串。

(3)FormatNum_Function(参量cPtr,参量iSegmentationLen)

这个函数是先调用函数(2)求得源文件中一行字符串的字符个数,后根据分割长度算出该行字符串能分割成几个字符串片段。cPtr 表示需要分割字符串,iSegmentationLen 表示分割长度。

(4)GetSegmentationString_Function(参量cPtr,参量iSegmentationLen,参量iFormatNum)

这个函数利用函数(1)(2)从一行字符串中取出我们分割的字符串。cPtr 表示需要分割的字符串,iSegmentationLen 表示分割长度,iFormatNum 表示需要分割第几个字符。

(5)WriteID_Function(参量fp,参量cPtr,参量iLineNum)

这个函数作用是如果从目标文件查到有一段字符串符合我们分割之后的字符串,我们将ID 写入到这个字符串中。fp 表示目标文件,cPtr 表示原来的字符串+插入ID =现在这个字符串,iLineNum 表示要修改第几行。

(6)ChechInsert_Function(参量cPtr,参量iSegmentationLen,参量id)

这个函数是用来判断是否可以插入ID ,因为有的分割字符串的ID 已经存在于目标文件中,我们就不需要再插入ID 。cPtr 表示分割好的字符串,iSegmentationLen 表示分割长度,id 表示行号。

5531

本栏目责任编辑:代影数据库与信息管理Computer Knowledge and Technology 电脑知识与技术第8卷第23期(2012年8月)

(7)Search_Function(参量Dest_fp,参量cPtr,参量iSegmentationLen,参量id)

这个函数是利用函数(1)(5)(6)查找分割的字符片段在不同行是否有重复,如不重复则写入到输出文件;如果在不同行重复则在该行的文本后加上当前的行号输出;如果在同行重复则不改变原先的输出。Dest_fp 表示目标文件,cPtr 表示分割完成的字符串,iSegmentation 表示分割长度,id 表示行号。以下是本算法的实现过程:If 源文件存在打开目标文件,没有则新建一个

获取分割长度

识别字符串中的字符,按照指定长度分割

取出一行字符串中分割的字符串片段,并写入ID 存入目标文件(重复字符串片段只保存一次)

利用Search_Function ()函数Else 退出程序2.3实验结果与分析

本实验在运行环境为Intel(R)Core(TM)2Duo CPU T5450@1.66GHZ 1.66GHZ,1.50G 内存的Windows XP 系统通过对包含不同记录数的文该文件,设定不同的分割长度进行分割,程序运行时间比较如图4

所示:

图4

字符串分割时间

图3中英文字符串分割算法流程图

5532

本栏目责任编辑:代影Computer Knowledge and Technology电脑知识与技术

第8卷第23期(2012年8月)

说明:横轴1,2,3分别表示文该文件中的记录数为10,25,50。

本算法的时间复杂度为(n/2),其中n表示文件中的记录数。该算法分割时间与记录数成线性增长,有较理想的效率。

3结论

随着信息的爆炸式增长,基于关键词搜索已经不能满足人们的需求,对模糊搜索的需求越来越迫切。该文提出了基于n-gram的中英文字符串分割算法,不仅仅能满足英文的字符串分割,还能满足中文、中英文,以及混有数字的字符串分割,是实现模糊搜索的一项重要技术。该技术的实现除了在模糊搜索有重要的应用,还在学位论文TMLC系统[14]和垃圾邮件过滤[15]也有重要的应用前景。

参考文献:

[1]周景.浅谈互联网信息检索[J].信息与电脑:理论版,2011(12).

[2]刘竟.近十年我国搜索引擎研究的可视化分析[J].图书情报研究,2011(4).

[3]李文.基于n-gram的字符串分割技术的算法实现[J].计算机与现代化,2010(9).

[4]Kukich K.Techniques for automatically correcting words intext[J].ACM Comput.Surv.,1992,24(4):377-439.

[5]Ji Shengyue,Li Guoliang,Li Chen,et al.Efficient interactive fuzzy keyword search[C].InternationalWorld Wide Web Conference,2009: 371-380.

[6]Behm Alexander,Ji Shengyue,Li Chen,et al.Space-constrained gram-based indexing for efficient approximate string search[C].ICDE, 2009:604-615.

[7]沈文婷.数据库关键字查询清理技术研究[J].电脑知识与技术,2011(34).

[8]L i C,Lu J,Lu Y.Efficient merging and filtering algorithms for approximate string searches[C].ICDE,2008:257-266.

[9]Wang J,Li G,Feng J.Fast-join:An efficient method for fuzzy token matching based string similarity join[C].ICDE,2011:458-469.

[10]潘磊.基于权重的Jaccard相似度度量的实体识别方法[J].北京交通大学学报,2009(6).

[11]Jiannan Wang,Guoliang Li,Jianhua Feng:Trie-Join:Efficient Trie-based String Similarity Joins with Edit-Distance Constraints.[J]. PVLDB2010PVLDB3(1):1219-1230.

[12]ChaudhuriS,GantiV,Kaushik R.Aprimitive operator for similarity joins in data cleaning[C].ICDE,2006.

[13]Wagner R A,FischerM J.The string2to2string correction problem[J].ACM,1974,21(1):168-173.

[14]张旻浩.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究,2011(4).

[15]常凯.基于TF*IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010(25).

5533

数据库与信息管理

基于n-gram中英文字符串分割算法实现

作者:何晓明, 洪亲, 蔡坚勇, 林鸿

作者单位:福建师范大学仓山校区光电与信息工程学院,福建福州350007

刊名:

电脑知识与技术

英文刊名:Computer Knowledge and Technology

年,卷(期):2012(23)

本文链接:https://www.sodocs.net/doc/fc8642872.html,/Periodical_dnzsyjs-itrzyksb201223011.aspx

车牌的定位与字符分割报告

车牌的定位与分割 实验报告 一实验目的 针对交通智能系统所拍摄的汽车图片,利用设定的算法流程,完成对汽车车牌部分的定位,分割车牌部分,并完成字符的分割,以便于系统的后续分析及处理。 二实验原理 详见《车牌的定位与字符分割》论文。 三概述 1一般流程 车牌自动识别技术大体可分为四个步骤:图像预处理、车牌定位与分割、车牌字符的分割和车牌字符识别。而这四个步骤又可归结为两大部分:车牌分割和车牌字符识别。 图1-1为车牌自动识别技术的一般流程图。 2本实验的流程 (1)图像预处理:图像去噪 (2)车牌的定位:垂直边缘检测(多次)形态学处理的粗定位

合并邻近区域结合车牌先验知识的精确定位 (3)车牌预处理:车牌直方图均衡化倾斜校正判定(蓝底白字或者黄底黑字)归一化、二值化 (4)字符的分割:垂直投影取分割阈值确定各个字符的左右界限(结合字符宽度、间隔等先验知识)分割字符 四实验过程 4.1图像预处理 4.1.1图像去噪 一般的去噪方法有:空间域上的均值滤波和中值滤波;频率域上的巴特沃斯滤波器。图4-1是各滤波器处理椒盐噪声的效果。 a.被椒盐噪声污染的图片 b.均值滤波的效果图 c.中值滤波的效果图 d.BLPF的效果图 图4-1 各滤波器处理椒盐噪声的仿真 可见,中值滤波对椒盐噪声的处理效果极好,而一般所拍摄的图片上最多的便是孤立的污点,所以此处以中值滤波为主进行去噪。图4-2是采用中值滤波处理实际汽车图片的效果。

a.原始图像 b.灰度图像 c.中值滤波后的图像 图4-2 中值滤波处理实际汽车图片的效果 很显然,经过中值滤波后去除了原图上的部分污点。 4.1.2图像复原 由于通常情况下都不知道点扩展函数,所以我们采用基于盲解卷积的图像复原策略。 图4-3~4-7图是函数进行盲解卷积的实验结果,其中图4-3是图像cameraman 的模糊图像。 图4-3 模糊图像 在盲解卷积处理中,选择适当大小的矩阵对恢复图像的效果很重要。PSF的大小比PSF的值更重要,所以首先指定一个有代表性的全1矩阵作为初始PSF。恢复的图像如图4-4所示,初始PSF如图4-5所示。

图像分割算法开题报告

图像分割算法开题报告 摘要:图像分割是图像处理中的一项关键技术,自20世纪70年代起一直受到人们的高度重视,并在医学、工业、军事等领域得到了广泛应用。近年来具有代表性的图像分割方法有:基于区域的分割、基于边缘的分割和基于特定理论的分割方法等。本文主要对基于自动阈值选择思想的迭代法、Otsu法、一维最大熵法、二维最大熵法、简单统计法进行研究,选取一系列运算出的阈值数据和对应的图像效果做一个分析性实验。 关键字:图像分割,阈值法,迭代法,Otsu法,最大熵值法 1 研究背景 1.1图像分割技术的机理 图像分割是将图像划分为若干互不相交的小区域的过程。小区域是某种意义下具有共同属性的像素连通集合,如物体所占的图像区域、天空区域、草地等。连通是指集合中任意两个点之间都存在着完全属于该集合的连通路径。对于离散图像而言,连通有4连通和8连通之分。图像分割有3种不同的方法,其一是将各像素划归到相应物体或区域的像素聚类方法,即区域法,其二是通过直接确定区域间的边界来实现分割的边界方法,其三是首先检测边缘像素,然后再将边缘像素连接起来构成边界的方法。 图像分割是图像理解的基础,而在理论上图像分割又依赖图像理解,两者是紧密关联的。图像分割在一般意义下十分困难的,目前的图像分割处于图像的前期处理阶段,主要针对分割对象的技术,是与问题相关的,如最常用到的利用阈值化处理进行的图像分割。 1.2数字图像分割技术存在的问题

虽然近年来对数字图像处理的研究成果越来越多,但由于图像分割本身所具有的难度,使研究没有大突破性的进展,仍然存在以下几个方面的问题。 现有的许多种算法都是针对不同的数字图像,没有一种普遍适用的分割算法。 缺乏通用的分割评价标准。对分割效果进行评判的标准尚不统一,如何对分割结果做出量化的评价是一个值得研究的问题,该量化测度应有助于视觉系统中的自动决策及评价算法的优劣,同时应考虑到均质性、对比度、紧致性、连续性、心理视觉感知等因素。 与人类视觉机理相脱节。随着对人类视觉机理的研究,人们逐渐认识到,已有方法大都与人类视觉机理相脱节,难以进行更精确的分割。寻找到具有较强的鲁棒性、实时性以及可并行性的分割方法必须充分利用人类视觉特性。 知识的利用问题。仅利用图像中表现出来的灰度和空间信息来对图像进行分割,往往会产生和人类的视觉分割不一致的情况。人类视觉分割中应用了许多图像以外的知识,在很多视觉任务中,人们往往对获得的图像已具有某种先验知识,这对于改善图像分割性能是非常重要的。试图寻找可以分割任何图像的算法目前是不现实,也是不可能的。人们的工作应放在那些实用的、特定图像分割算法的研究上,并且应充分利用某些特定图像的先验知识,力图在实际应用中达到和人类视觉分割更接近的水平。 1.3数字图像分割技术的发展趋势 从图像分割研究的历史来看,可以看到对图像分割的研究有以下几个明显的趋势。 对原有算法的不断改进。人们在大量的实验下,发现一些算法的效

(完整word版)字符分割

在车牌自动识别系统中最重要的指标是字符的识别率,对字符识别的准确率直接影响了系统的性能。字符识别部分由车牌图像的二值化、滤波、字符分割、字符大小规一化、汉字、字母和数字识别等模块组成。这一周我主要学习了字符分割模块的有关内容。 车牌字符分割的任务就是把多行或多字符图像中的每个字符从整个图像中分割出来,使其成为单个字符图像,为下一步将标准的单个字符输入到字符识别模块做准备。字符分割是字符识别的基础,字符分割的质量直接影响到字符识别的效果。字符分割之前,首先要进行图像的二值化,然后再进行字符分割,从而分割出一个个具体的二值图表示的字符图像点阵,作为单字识别的输入数据。由于文本图像不但包括了组成文本的一个个字符,而且包含了字符行间距与字符间的空白,甚至还会带有各种标点符号,这就需要采用一定的处理技术将文本中的一个个字符切分出来,形成单个字符的点阵,以便进行字符识别。车牌字符分割的原理主要是利用车牌字符自身的一些特点如规则整齐的排列、字符之间有一定的间隔、字符的宽高比例固定等等,对车牌区域进行垂直方向的投影,利用字与字之间的空白间隙在图像行垂直投影上形成的空白间隙将单个汉字的图像切割开来。 4.2投影分割 投影分割方法的原理是首先将车牌图像转换为二值图像(设白色为1,黑色为0),然后将车牌像素灰度值按垂直方向累加,即所谓的垂直投影。由于车牌中字符之间的灰度值通常为O,因此,投影图将会在字符之间形成谷底,或者说在字符处形成波峰(一种特殊的波峰)。通过寻找两个波峰之间的谷点,将其作为字符分割的位置,完成字符的分割。投影分割法的具体步骤如下: (1)先自下而上对图像进逐行扫描直至遇到第一个白色象素点。记录下来,然后再由上而下对图像进行逐行扫描直到找到第一个白色象素点,这样,就找到图像大致的高度范围。(2)在这个高度范围之内再自左向右逐行扫描,遇到第一个白色象素时认为是字符分割的起始位置,然后继续扫描,直至遇到没有白色象素的列,则认为是这个字符分割结束。然后继续按照上述的方法扫描,直至图像的最右端,就得到每个字符比较精确的宽度范围。(3)在已知的每个字符比较精确的宽度范围内,按照(1)的方法,分别进行自上而下和自下而上的逐行扫描来获得每个字符精确的高度范围。投影分割的方法比较常用,主要是针对在车牌定位、图像预处理后比较规则的车牌图像。它的优点是程序逻辑设计简单,循环执行功能单一,便于设计和操作,程序执行时间短。缺点是由于车牌图像通常会有噪声,产生字符的断裂和交叠等情况,在投影时字符之间的谷底会受到很大影响,造成谷底不明显,严重时谷底会消失,造成字符分割误差甚至错误,最终影响字符的识别。因此该方法对车牌字符的断裂和交叠问题,解决得不很理想。 4.3基于聚类分析的字符分割 基于聚类分析的字符分割原理是按照属于同一个字符的像素构成一个连通域的原则,再结合牌照字符的高度、间距的固定比例关系等先验知识,来分割车牌图像中的字符。其具体算法步骤为: (1) 以等于车牌图像宽度七分之一的阈值‘对车牌图像按行进行逐行扫描,如果有线段的长度大于‘就可以认为是牌照的上下边框,再以等于车牌图像高度五分之三的阈值Z:对车牌图像按列进行逐列扫描,如果有线段的长度大于厶,则认为是车牌的左右边框。因此可除去车牌边框部分。 (2)根据车牌字符的先验知识,在预处理好的车牌图像上预设7个类中心。设置类中心可以采用程序提示给定坐标值的方法,也可以采用给予固定坐标值的方法。 (3)自下向上对图像进行逐行扫描,每扫描到一个白色象素时,都要与上述每个类已获得的每个(白色)象素比较距离d,找到与该象素距离最近的已获得象素点,并认为这两个象素属于同一类,即属于同一字符。距离d取两个象素点:彳(x,Y)扫描得到的当前象素,曰O,),)

基于垂直投影法的车牌字符分割算法设计

毕业论文(设计) 学院: 计算机科学学院 专业: 软件工程年级: 题目:基于垂直投影法的车牌字符分割算法设计学生姓名: 学号: 指导教师姓名: 职称: 年月

XXXX大学本科毕业论文(设计)原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。本人完全意识到本声明的法律后果由本人承担。 作者签名:年月日 目录 摘要 (1)

Abstract (1) 第一章绪论 (1) 1.1车牌识别技术的背景 (1) 1.2 车牌识别系统的工作原理 (2) 1.3 国内外研究 (3) 1.4 本文主要内容 (3) 第二章基本理论介绍 (3) 2.1 数字图像处理技术 (3) 2.1.1 bmp位图 (4) 2.1.2 RGB编码方式 (4) 2.1.3二值图像 (4) 2.1.4 Otsu算法 (4) 2.1.5灰度图像 (5) 2.1.6 中值滤波 (5) 第三章车牌图像的预处理 (5) 3.1车牌图像的灰度化 (5) 3.2车牌图像的二值化 (5) 3.3 去噪处理 (6) 3.3.1去除车牌边框 (7) 3.3.2去除车牌图像中的圆点 (8) 第四章车牌字符分割算法 (8) 4.1传统垂直投影的车牌字符分割算法 (8) 4.2 改进的垂直投影的车牌字符分割算法 (9) 第五章系统实现 (10) 第六章总结与展望 (13) 6.1 总结 (13) 6.2 展望 (13) 致谢 (14) 参考文献 (15)

基于垂直投影法的车牌字符分割算法设计 摘要:车牌识别系统在现代社会有着广泛应用,而车牌字符分割是其中的一项关键技术。本文针对车牌字符分割算法做了较为深入的研究。首先,要想正确的分割车牌图像,必须得到质量较好的车牌二值化图像。所以,本文对车牌字符分割的预处理部分进行较为深入的研究,尤其是车牌图像二值化后的去噪处理。传统投影法对车牌图像要求比较高,容易受到噪声的影响,从而造成分割字符的粘连与断裂。针对传统投影法的不足,文章提出一种基于垂直投影法的改进的字符分割算法,该算法可以有效地识别车牌字符。该方法抗干扰能力较强,能有效的减少字符粘连与断裂,分割准确度较高。 关键词:车牌识别;二值化;字符分割;垂直投影法 Vertical projection-based license plate character segmentation algorithm design Abstract:License plate recognition system has a wide range of applications in modern society, the license plate character segmentation is a key technology. In this paper, the license plate character segmentation algorithm to do a more in-depth study. First of all, in order to correct segmentation of license plate image must be of good quality license plate binary image. So more in-depth study of the pre-processing part of the license plate character segmentation, especially after the license plate image binarization denoising. Traditional projection on the license plate image requires relatively high, easily affected by noise, resulting in a split character adhesion and fracture. For the lack of traditional projection method, the paper presents a segmentation algorithm based on the improvement of the vertical projection of the characters, the algorithm can effectively identify the license plate character. Strong anti-interference ability of the method, which can effectively reduce the character adhesion and fracture, split high degree of accuracy. Keywords License Plate Recognition; binarization ;Character segmentation; Vertical projection 第一章绪论 随着世界经济的快速发展,以及汽车制造技术的提高,使得汽车迅速成为人们日常生活中的一个必需品。这造成全球的汽车数量猛增,而随之也导致城市的交通压力越来越大,城市的交通状况也因此得到了更多的关注。如何有效地对交通进行管理,也成为各国政府和相关部门所关注的焦点和热点。针对这些问题,人们开始将计算机技术、通信技术、计算机网络技术和自动化信息处理等很多新的科学技术用于交通道路的监视和管理系统,以此提高车辆管理和运输的效率。它主要是通过对过往车辆实施检测,提取有关的交通数据来达到对交通的监控、管理和指挥。车牌自动识别技术[1]是指能够检测到受监控路面的车辆并自动提取车辆车牌信息(含汉字字符、英文字母、阿拉伯数字及号牌颜色)进行处理与识别的技术。它以计算机技术、图像处理技术、模糊识别技术为基础,建立运动车辆的特征模型,识别车辆特征,如号牌、车型、颜色等,并着重解决高速车辆图像的获取及清晰度问题。本文是在以往的车牌分割算法[2]的基础上介绍了车牌识别技术中的一种字符分割算法,该算法是针对一种已有的字符分割算法(投影法)的改进性研究。 1.1车牌识别技术的背景 随着21 世纪经济全球化和信息时代的到来,迅猛发展的计算机技术、通信技术和计算机网络技术,水平不断提高的自动化信息处理技术在人们社会活动和生活的各个领域得到广泛应用。同时,高速度、高效率的生活节奏,使汽车普及成为必然趋势。伴随着世界各国汽车数量的增加,城市的交通状况越来越受到人们的重视。如何有效地进行交通管理日益成为各国政府相关部门所关注的焦点。针对这一问题,

关于图像分割算法的研究

关于图像分割算法的研究 黄斌 (福州大学物理与信息工程学院 福州 350001) 摘要:图像分割是图像处理中的一个重要问题,也是一个经典难题。因此对于图像分割的研究在过去的四十多年里一直受到人们广泛的重视,也提山了数以千计的不同算法。虽然这些算法大都在不同程度上取得了一定的成功,但是图像分割问题还远远没有解决。本文从图像分割的定义、应用等研究背景入手,深入介绍了目前各种经典的图像分割算法,并在此基础比较了各种算法的优缺点,总结了当前图像分割技术中所面临的挑战,最后展望了其未来值得努力的研究方向。 关键词:图像分割 阀值分割 边缘分割 区域分割 一、 引言 图像分割是图像从处理到分析的转变关键,也是一种基本的计算机视觉技术。通过图像的分割、目标的分离、特征的提取和参数的测量将原始图像转化为更抽象更紧凑的形式,使得更高层的分析和理解成为可能,因此它被称为连接低级视觉和高级视觉的桥梁和纽带。所谓图像分割就是要将图像表示为物理上有意义的连通区域的集合,也就是根据目标与背景的先验知识,对图像中的目标、背景进行标记、定位,然后将目标从背景或其它伪目标中分离出来[1]。 图像分割可以形式化定义如下[2]:令有序集合表示图像区域(像素点集),H 表示为具有相同性质的谓词,图像分割是把I 分割成为n 个区域记为Ri ,i=1,2,…,n ,满足: (1) 1,,,,n i i j i R I R R i j i j ===??≠ (2) (),1,2,,i i i n H R True ?== (3) () ,,,i j i j i j H R R False ?≠= 条件(1)表明分割区域要覆盖整个图像且各区域互不重叠,条件(2)表明每个区域都具有相同性质,条件(3)表明相邻的两个区域性质相异不能合并成一个区域。 自上世纪70年代起,图像分割一直受到人们的高度重视,其应用领域非常广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。主要表现在: 1)医学影像分析:通过图像分割将医学图像中的不同组织分成不同的区域,以便更好的

图像分割算法研究与实现

中北大学 课程设计说明书 学生姓名:梁一才学号:10050644X30 学院:信息商务学院 专业:电子信息工程 题目:信息处理综合实践: 图像分割算法研究与实现 指导教师:陈平职称: 副教授 2013 年 12 月 15 日

中北大学 课程设计任务书 13/14 学年第一学期 学院:信息商务学院 专业:电子信息工程 学生姓名:焦晶晶学号:10050644X07 学生姓名:郑晓峰学号:10050644X22 学生姓名:梁一才学号:10050644X30 课程设计题目:信息处理综合实践: 图像分割算法研究与实现 起迄日期:2013年12月16日~2013年12月27日课程设计地点:电子信息科学与技术专业实验室指导教师:陈平 系主任:王浩全 下达任务书日期: 2013 年12月15 日

课程设计任务书 1.设计目的: 1、通过本课程设计的学习,学生将复习所学的专业知识,使课堂学习的理论知识应用于实践,通过本课程设计的实践使学生具有一定的实践操作能力; 2、掌握Matlab使用方法,能熟练运用该软件设计并完成相应的信息处理; 3、通过图像处理实践的课程设计,掌握设计图像处理软件系统的思维方法和基本开发过程。 2.设计内容和要求(包括原始数据、技术参数、条件、设计要求等): (1)编程实现分水岭算法的图像分割; (2)编程实现区域分裂合并法; (3)对比分析两种分割算法的分割效果; (4)要求每位学生进行查阅相关资料,并写出自己的报告。注意每个学生的报告要有所侧重,写出自己所做的内容。 3.设计工作任务及工作量的要求〔包括课程设计计算说明书(论文)、图纸、实物样品等〕: 每个同学独立完成自己的任务,每人写一份设计报告,在课程设计论文中写明自己设计的部分,给出设计结果。

Java分割字符串

https://www.sodocs.net/doc/fc8642872.html,ng.String 的 split() 方法, JDK 1.4 or later public String[] split(String regex,int limit) 示例代码 public class StringSplit { public static void main(String[] args) { String sourceStr = "1,2,3,4,5"; String[] sourceStrArray = sourceStr.split(","); for (int i = 0; i < sourceStrArray.length; i++) { System.out.println(sourceStrArray[i]); } // 最多分割出3个字符串 int maxSplit = 3; sourceStrArray = sourceStr.split(",", maxSplit); for (int i = 0; i < sourceStrArray.length; i++) { System.out.println(sourceStrArray[i]); } } } 输出结果: 1 2 3 4 5 1 2 3,4,5

split 的实现直接调用的 matcher 类的 split 的方法。在使用String.split方法分隔字符串时,分隔符如果用到一些特殊字符,可能会得不到我们预期的结果。在正则表达式中有特殊的含义的字符,我们使用的时候必须进行转义,示例: public class StringSplit { public static void main(String[] args) { String value = "192.168.128.33"; // 注意要加\\,要不出不来,yeah String[] names = value.split("\\."); for (int i = 0; i < names.length; i++) { System.out.println(names[i]); } } } split分隔符总结 1.字符"|","*","+"都得加上转义字符,前面加上"\\"。 2.而如果是"\",那么就得写成"\\\\"。 3.如果一个字符串中有多个分隔符,可以用"|"作为连字符。 比如:String str = "Java string-split#test",可以用Str.split(" |-|#")把每个字符串分开。这样就把字符串分成了3个子字符串。 java.util.Tokenizer JDK 1.0 or later StringTokenizer StringTokenizer 类允许应用程序将字符串分解为标记。StringTokenizer 是出于兼容性的原因而被保留的遗留类(虽然在新代码中并不鼓励使用它)。建议所有寻求此功能的人使用String 的 split 方法或 java.util.regex 包。 代码示例 public class StringSplit { public static void main(String[] args) { String ip = "192.168.128.33"; StringTokenizer token=new StringTokenizer(ip,"."); while(token.hasMoreElements()){

车牌识别(字符切割)大作业

图像处理技术

目录一.引言 (1) 二.目的和意义 (1) 三.设计原理 (1) 四.字符分割程序 (2) 五.结果 (4) 六.测试代码 (5) 七.系统的不足 (5) 八.总结 (5) 九.心得体会 (5) 十.致谢 (6) 十一.参考文献 (6)

一.引言 随着人们生活水平的不断提高,机动车辆数量大幅度增加,与之相配套的高速公路,城市路网及停车场越来越多,显著提高了人们对交通控制方面的要求。由于计算机技术的发展,信息处理水平的提高使智能交通系统成为世界交通领域研究的重要课题。其中车牌识别是智能交通系统的重要组成部分。车牌识别系统能够自动、实时地检测车辆、识别汽车车牌,从而监控车辆的收费、闯关、欠费以及各种舞弊现象。本系统为基于蓝色车牌的车牌识别系统,它能够识别非蓝色车辆的蓝底白字车牌。该系统通过车牌提取、车牌定位、预处理、字符分割、字符识别五个模块组成车牌识别系统。 二.目的和意义 通过对车牌识别系统的研究,自己开发小型车牌识别系统,虽有一定的局限性与不完整性,但可以使自己更加的熟悉MATLAB语言,激发对研究的兴趣,拓宽知识面,为自己以后的研究打下基础。在提升自身科研能力的同时,还能提高团队合作精神,清楚团队成员的分工,协调成员间的工作,为今后的团队合作研究积累经验。 三.设计原理 字符分割在此系统中有着承前启后的作用。它在前期车牌定位的基础上进行字符的分割,然后利用分割的结果进行字符的识别。字符识别的算法很多,应为车牌字符间间隔较大,不会出现字符粘连的情况,所以此处采用的方法为寻找连续有文字的块,若长度大于某阈值,则认为组成该块有两个字符,需要分割。一般分割出来的字符要进行进

语音识别字符分割算法_原创.

5.设计方法 5.1概述 5.2硬件系统的设计 语音信号预处理 (1)预加重 预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。在计算机里用具有6dB/频程升高频特性的预加重数字滤波器来实现,一般是一阶的FIR数字滤波器: 为预加重系数,值接近于l,在0.9和1之间,典型值为0.94。 预加重的DSPBuilder实现: 为了便于实现,将上式中的一阶FIR预加重滤波器用差分方程表示为: 其中,为原始语音信号序列,N为语音长度,上面的公式显示其在时域 上的特性。又因为0.94接近于15/16,所以将上面的式子变为 除以16可以用右移4位来实现,这样就将除法运算化简为移位运算,降低了计算复杂度。在后面的模块设计中,也乘以或者除以一些这样的数,这些数为2的幂次,都可以用移位来实现。 预加重的硬件实现框图如下: 预加重实现框图 DSP Builder中的图形建模为:

预加重滤波器的DSPBuilder结构图 (2)分帧 语音信号是一种典型的非平稳信号,其特性随时间变化,其在很短的时间内是平稳的,大概为1小20ms,其频谱特性和物理特征可近似的看做不变,这样就可以采用平稳过程的分析处理方法来处理。 分帧的DSP Builder实现: 语音信号在10到20ms之间短时平稳(这样可以保证每帧内包含1一7个基音周期),也就是说选取的帧长必须介于10到20ms之间,此外,在MFCC特征提取时要进行FFT变换,FFT点数一般为2的幂次,所以本文中选择一帧长度为16ms,帧移为1/2帧长,这样一帧就包含了16KHz*16ms=256个点,既满足短时平稳,又满足FFT变换的要求。 由于采集的语音是静态的,语音长度已知,很容易计算出语音的帧数,但是在硬件上或实时系统中,语音长度是无法估计的,而且还要考虑存储空间的大小和处理速度,采用软件实现时的静态分帧方法是行不通的,可以利用硬件本身的特点进行实时的动态分帧。 为了使帧与帧之间平滑过渡,保持连续语音流的自相关性和过渡性,采用交叠分帧的算法。帧移取1/2帧长,即128个数据点当作一个数据块。FIFO1大小为一帧语音长度,分成两个数据块,预加重后的数据写入这个FIFO。为了实现帧移交叠,在FIFO1读数据时,同时再用FIFO2保存起来,当FIFO的一块数据读完以后,紧接着从FIF22读出这一块的副本。写入的一块数据,相当于被重复读出2次,所以FIFO1的读时钟频率设计为写时钟频率的2倍,而FIFOZ的读写时钟频率和FIFO1的读时钟频率相同。分帧以后的数据在图中按时间标号为1、2、2、3.··…,1、2为第一帧,2、3为第二帧,以此类推。

SQL 分割字符串函数 SQL SPLIT

SQL 分割字符串函数 SQL SPLIT 2009-06-10 00:15 我们在操作数据库时,经常要用到分割字符串以达到某种目的,下面是一个SQL分割字符串的函数: --CODE: -- ============================================= -- Author: -- Create date: <2009-06-09> -- Description: -- ============================================= CREATE FUNCTION [dbo].[fn_split]

( --输入字符串 @InputString NVARCHAR(MAX), --分隔符号 @Seprator NVARCHAR(10) ) RETURNS @tempTable TABLE ([value] NVARCHAR(200)) AS BEGIN DECLARE @index int DECLARE @value NVARCHAR(200) --去除输入字符串前后的空格 SET @InputString = RTRIM(LTRIM(@InputString)) --分隔符号@Seprator在输入字符串@InputString中的开始位置 SET @index=CHARINDEX(@Seprator, @InputString) WHILE @index>0 BEGIN --返回输入字符串(@InputString)左边开始指定个数(@index-1)的字符 SET @value=LEFT(@InputString,@index-1) --插入数据 INSERT @tempTable VALUES(@value) --重新设置输入字符串截取输入字符串从输入字符串@index+1处开始且长度为LEN(@InputString)-@index SET @InputString = SUBSTRING(@InputString, @index+1, LEN(@InputString)-@index) --分隔符号@Seprator在输入字符串@InputString中的开始位置 SET @index=CHARINDEX(@Seprator, @InputString) END --如果输入字符串不为空 IF(@InputString<>'\') BEGIN INSERT @tempTable VALUES(@InputString) END RETURN END --使用 SELECT * FROM dbo.fn_split('A,B,CD,EFG,H',',') --结果

图像分割常用算法优缺点探析

图像分割常用算法优缺点探析 摘要图像分割是数字图像处理中的重要前期过程,是一项重要的图像分割技术,是图像处理中最基本的技术之一。本文着重介绍了图像分割的常用方法及每种方法中的常用算法,并比较了各自的优缺点,提出了一些改进建议,以期为人们在相关图像数据条件下,根据不同的应用范围选择分割算法时提供依据。 关键词图像分割算法综述 一、引言 图像分割决定了图像分析的最终成败。有效合理的图像分割能够为基于内容的图像检索、对象分析等抽象出十分有用的信息,从而使得更高层的图像理解成为可能。目前图像分割仍然是一个没有得到很好解决的问题,如何提高图像分割的质量得到国内外学者的广泛关注,仍是一个研究热点。 多年来人们对图像分割提出了不同的解释和表达,通俗易懂的定义则表述为:图像分割指的是把一幅图像分割成不同的区域,这些区域在某些图像特征,如边缘、纹理、颜色、亮度等方面是一致的或相似的。 二、几种常用的图像分割算法及其优缺点 (一)大津阈值分割法。 由Otsu于1978年提出大津阈值分割法又称为最大类间方差法。它是一种自动的非参数非监督的门限选取法。该方法的基本思路是选取的t的最佳阈值应当是使得不同类间的分离性最好。它的计算方法是首先计算基于直方图而得到的各分割特征值的发生概率,并以阈值变量t将分割特征值分为两类,然后求出每一类的类内方差及类间方差,选取使得类间方差最大,类内方差最小的t作为最佳阈值。 由于该方法计算简单,在一定条件下不受图像对比度与亮度变化的影响,被认为是阈值自动选取的最优方法。该方法的缺点在于,要求得最佳阈值,需要遍历灰度范围0—(L-1)内的所有像素并计算出方差,当计算量大时效率会很低。同时,在实际图像中,由于图像本身灰度分布以及噪声干扰等因素的影响,仅利用灰度直方

字符串分割函数

[C语言]字符串处理 - 以指定的字符串分割字符串(支持中文字符) 2008-11-8: 函数StringSplit(分割字符串到一个字符串数组中,其中该数组第0位为分割后字符串的个数) 2008-11-10: 函数StringSplit_Struct(以定义一个新结构的方式来实现该函数) /*C代码如下*/ #include /*实现方案1*/ /*分割字符串到一个字符串数组中,其中该数组第一位为分割后的个数*/ char** StringSplit(const char* string,const char* split) { char** result; /*首先分配一个char*的内存,然后再动态分配剩下的内存*/ result = (char * * )malloc(sizeof(char *)*1); memset(result,0,sizeof(char *)*1); /*定义一个遍历用的指针和一个寻找位置用的指针*/ char* p = string; char* pos = string; /*无论是否存在该分割串,绝对都会分割到一个字符串*/ int count = 1; while(*p != '\0') { char* temp; char* tt; /*查找该字符串*/ pos = strstr(p,split); /*结果为0说明剩下的字符串中没有该字符了*/ if(pos == 0) { result = (char * * )realloc(result,sizeof(char *)*(count+2)); result[0] = count; result[count] = p; result[count+1] = NULL; return result; } /*分配临时字符串空间*/ temp = (char * )malloc(sizeof(char)*(pos - p+1)); memset(temp,0,sizeof(char)*(pos - p+1)); /*设置头指针,以便赋值时使用*/ tt = temp; while(p<=pos) {

基于matlab的车牌字符分割

《多媒体通信技术》课程报告 专业通信与信息系统 学号 姓名 任课教师

基于matlab的车牌字符分割 摘要:本文利用投影分割的方法对车牌字符进行分割,并利用模板匹配的方法进行字符识别,在图像进行预处理后的基础上,利用对车牌图像分块扫描的方法对车牌图像去边框处理,在去边框的基础上对每个字符进行分割,得到单个字符。关键字:字符;预处理;分割 1、引言 智能交通系统(intelligent transportation system,ITS)的发展现今对社会生活、国民经济和城市建设产生积极而深远的影响,我国已经将其列为优先发展的高技术产业化重点领域[1]。车牌识别系统(1icense plate recognition,IJR)是目前交通部门十分重要的科研课题之一,它主要包括车牌定位、字符分割和字符识别三部分,字符分割和字符识别是最后的关键环节。本文主要通过运用投影分割的方法对车牌进行字符分割并利用模板匹配的方法对车牌字符进行识别。2、图像预处理 图像预处理是对输入的图像进行一系列变换处理,使之成为符合字符识别模块要求的图像。图像预处理环节对于最终识别的正确率有很大影响,由于图像本身受到各种自然因素或设备因素的影响,图像的清晰度往往不是很理想,有时还会带有较明显的图像噪声。若不对图像进行预处理,这些噪声将给后续的识别模块带来严重影响,最终可能造成识别错误。因此,预处理的好坏一定程度上影响到字符识别的正确率。图像预处理首先需要将待识别的字符从输入的灰度图中分离出来。最常用的方法就是图像二值化。 2.1图像的灰度化

就是将彩色图像转化为具有256个灰度级的黑白图像,灰度图像只保留图像的亮度信息,去除了色彩信息,就像我们平时看到的黑白照片,它的亮度由暗到明,而且亮度变化是连续的。图像灰度化后可以使处理运算量大大减少,这样处理过程就变得更加简单和省时。在灰度图像中,通常将亮度划分成0到255共256个级别,0最暗,255最亮。 图2-1 灰度化的图像 2.2 图像的阈值化处理 所谓图像二值化就是指将灰度图转化为只含有两种灰度值的图像,一种为背景,另一种为待识别的字符,本文采用动态阈值法将图像二值化:如果输入图像较暗或者车牌较脏,如果采用固定的阈值将图像进行二值化,生成的二值图会非常黑或者有很多噪声。二值化有很多方法,主要为P片法或者峰谷法。本文采用的是P片法,阈值的大小的设定基于以下假设:由于现有车牌绝大部分为蓝底白字或者黄底黑字车牌,设理想的车牌平均包含大约60%的蓝/黄色像素和40%的白/黑色像素。首先,将图像二值化,计算出黑色和白色像素的比例,将它和期望值进行比较。从而算出新的阈值,直到近似等于期望值为止[2]。图1为理想状态下车牌原图片和的阈值化图片。 图2-2-1 阈值化的图像 图像经过上述步骤处理后,已经从带有噪声的灰度图像转变为符合识别要求的图像。该图像为只包含两种灰度值的二值图像,并且具有统一尺寸。而且在预处理环节中,已最大限度地去除了输入图像中的噪声,在保持字符原本信息不丢失的前提下,把待识别的字符从背景中成功地分离出来。 3 车牌的去边框处理

kmeans图像分割算法

he = imread('f:\3.jpg'); % 读入图像 imshow(he), title('H&E image'); text(size(he,2),size(he,1)+15,... 'Image courtesy of Alan Partin, Johns Hopkins University', ... 'FontSize',7,'HorizontalAlignment','right'); cform = makecform('srgb2lab'); % 色彩空间转换 lab_he = applycform(he,cform); ab = double(lab_he(:,:,2:3)); % 数据类型转换 nrows = size(ab,1); % 求矩阵尺寸 ncols = size(ab,2); % 求矩阵尺寸 ab = reshape(ab,nrows*ncols,2); % 矩阵形状变换 nColors = 3; % 重复聚类3次,以避免局部最小值 [cluster_idx cluster_center] = kmeans(ab,nColors,'distance','sqEuclidean', ... 'Replicates',3); pixel_labels = reshape(cluster_idx,nrows,ncols); % 矩阵形状改变 imshow(pixel_labels,[]); % 显示图像 title('image labeled by cluster index'); % 设置图像标题 segmented_images = cell(1,3); % 细胞型数组 rgb_label = repmat(pixel_labels,[1 1 3]); % 矩阵平铺 for k = 1:nColors color = he; color(rgb_label ~= k) = 0;

基于图的快速图像分割算法

Efficient graph-based image segmentation 2.相关工作 G=(V ,E),每个节点V i v 对应图像中一个像素点,E 是连接相邻节点的边,每个边有对应有一个权重,这个权重与像素点的特性相关。 最后,我们将提出一类基于图的查找最小割的分割方法。这个最小割准则是最小化那些被分开像素之间的相似度。【18】原文中叫Component,实质上是一个MST,单独的一个像素点也可以看成一个区域。 预备知识: 图是由顶点集(vertices )和边集(edges )组成,表示为,顶点,在本文中即为单个的像素点,连接一对顶点的边具有权重,本文中的意义为顶点之间的不相似度,所用的是无向图。 树:特殊的图,图中任意两个顶点,都有路径相连接,但是没有回路。如上图中加粗的边所连接而成的图。如果看成一团乱连的珠子,只保留树中的珠子和连线,那么随便选个珠子,都能把这棵树中所有的珠子都提起来。如果,i 和h 这条边也保留下来,那么h,I,c,f,g 就构成了一个回路。 最小生成树(MST, minimum spanning tree ):特殊的树,给定需要连接的顶点,选择边权之和最小的树。上图即是一棵MST 。 本文中,初始化时每一个像素点都是一个顶点,然后逐渐合并得到一个区域,确切地说是连接这个区域中的像素点的一个MST 。如图,棕色圆圈为顶点,线段为边,合并棕色顶点所生成的MST ,对应的就是一个分割区域。分割后的结果其实就是森林。 边的权值: 对于孤立的两个像素点,所不同的是颜色,自然就用颜色的距离来衡量两点 的相似性,本文中是使用RGB 的距离,即

一种新的车牌图像字符分割与识别算法

微电子学与计算机2007年第24卷第2期 1 引言 智能交通系统(ITS)是一个热点研究领域,受到日益广泛的关注,车牌识别是其重要组成部分。对行驶车辆的牌照进行自动识别,从而完成自动收费、无人停车管理等,这无疑节省了人力、物力,同时提高了交通管理的效率。车牌识别系统主要包括四大部分,如图1所示。在准确定位车牌后,字符分割的好坏对字符识 别率起着至关重要的作用。由于处于实际环境中,受天气、光照、观察点的影响,经定位后的车牌还是存在各种各样的噪声。因此,必须对图像进行预处 理,以改善图像质量,提高字符识别率[1 ̄3]。 2面向字符分割的图像预处理 2.1光照不均校正与对比度增强 车牌不可避免的存在噪声,而且由于车牌识别系统在室外24小时工作,光照度大范围变化,也存在光照不均,亮度太低、对比度太小等情况,这些都会降低系统的字符识别率,因此需要采取去噪,光照不均校正和对比度增强等措施。本文应用中值滤波滤除噪声,通过低通滤波获得图像背景的照度估计,再从原始图像中减去此照度来校正光照不均[4],然后通过对比拉伸变换增强对比度[5]。2.2二值化分割 由车牌定位得到的车牌字符图像一般为彩色图或灰度图,为方便后面的字符分割和识别要先对图像进行二值化处理, 二值化的好坏直接影响到后 一种新的车牌图像字符分割与识别算法 陈振学1,汪国有1,刘成云2 (1华中科技大学图像识别与人工智能研究所图像信息处理与智能控制教育部重点实验室,湖北武汉430074) (2武汉科技大学信息科学与工程学院,湖北武汉430081) 摘要:提出了一种新的字符分割算法,该算法利用由中间向两端搜索的方法确定字符的上下边界,且利用一维 循环清零法及先验知识垂直分割得到单个的字符。实验结果表明,该算法较好的解决了以上问题,适用于各种质量的车牌图像,分割的正确率较高。 关键词:智能交通系统;字符分割;投影特征;先验知识中图分类号:TP391.41 文献标识码:A 文章编号:1000-7180(2007)02-0042-03 ANovelAlgorithmofCharacterSegmentationinLicensePlatesRecognition CHENZhen-xue1,WANGGuo-you1,LIUCheng-yun2 (1InstituteofPatternRecognition&ArtificialIntelligence,StateEducationCommissionLaboratoryforImageProcessing &IntelligenceControl,HuazhongUniversityofScienceandTechnology,Wuhan430074,China) (2CollegeofInformationScienceandEngineering,WuhanUniversityofScienceandTechnology,Wuhan430081,China)Abstract:TheLPR (LicensePlateRecognition)systemconsistsofthreesteps:licenseplatelocating,charactersegmen-tationandcharacterrecognition.CharactersegmentationisanimportantstepinaLPRsystem.Therearemanyfactorsthatcausethecharactersegmentationtaskdifficult,suchasimagenoise,plateframe,rivet,spacemark,platerotationandilluminationvariance.Thispaperpresentsanewalgorithmforcharactersegmentation.Firstly,characterstop-bottomedgescanbeobtainedbysearchingfrommiddletoend.Andthen,thesinglecharacterscanbesegmentedusingone-dimcycleclearingandpriorknowledge.Theexperimentresultsshowthegoodperformanceofthesegmentationalgo-rithm. Keywords:ITS;Charactersegmentation;Projectionfeature;Priorknowledge 收稿日期:2005-10-24 基金项目:总装备部基金项目(51401020201JW0521) 42

相关主题