搜档网
当前位置:搜档网 › 基于Matlab的语音识别系统的设计_百度文库(2)

基于Matlab的语音识别系统的设计_百度文库(2)

河南理工大学毕业设计(论文)说明书 2 近国外最高水平。 语音识别发展到一定阶段,世界各国都加快了语音识别引用系统的研究开发,通常连续语音是含有较完整语法信息的连续语句,最接近于人的自然讲话方式,从非连续语音到连续语音的研究面临着很多完全不同的技术难点,非连续语音的识别是一些孤立的声波片段,连续语音则面临着如何切分声波的问题。诸如此类的新问题使连续语音识别率的提高比非连续语音更加困难。 经过几十年的发展和摸索,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性一起集中于一个系统中,并以此确定了统计方法和模型在语音识别和语音处理中的主流地位。在声学识别层次,以多个说话人发音的大规模语音数据为基础,以马尔可夫链为基础的语音序列建模方法HMM(隐含马尔可夫模型)比较有效的解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。 目前在语音识别研究领域非常活跃的课题为稳健语音识别、说话人自适应技术、大词汇量关键词识别算法、语音识别的可信度评测算法、基于类的语言模型和自适应语言模型,以及深层次的自然语音的理解。研究的方向也越来越侧重于口语对话系统。 1.3语音识别系统的分类 语音识别是近年来十分活跃的一个研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。本文介绍了语音识别的基本流程、所用到的语音参数算法、语音识别的训练算法和识别算法做初步的探究,主要运用了特定人孤立词识别的DTW算法和非特定人识别的连续HMM算法的Matlab识别系统。 语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。孤立词识别是指说话人每次只说一个词或短语,每个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中。连接词语音识别支持一个小的语法网络,其内部形成一个状态机,可以实现简单的家用电器的控制,而复杂的连接词语音识别系统可以用于电话语音查询、航空定票等系统。连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。显然,连续非特定人语音识别的难度要大得多,因为不仅有说话人口音的问题,还有协同发音、断字断句、搜索等问题,除了考虑语音的声学模型外还要涉及到语言

模型,如构词法、文法等。 从识别对象的类型来看,语音识别可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。特定人是指只针对一个用户的语音识别,非特定人则可用于不同的用户。实际上,非特定人语音识别的初始识别率往往都比较低,一般都要求用户花一定的时间对系统进行训练,将系统的参数进行一定的自适应调整,才能使识别率达到满意的程度。 非特定人大词表连续语音识别是近几年研究的重点,也是研究的难点。目前的连续语音识别大多是基于HMM(隐马尔可夫模型)框架,并将声学、语言学的知识统一引入来改善这个框架,其硬件平台通常是功能强大的工作站或PC机。 河南理工大学毕业设计(论文)说明书 3 1.4语音识别系统的基本构成 语音识别系统的典型实现方案为:输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音信号经预处理后,接下来很重要的一环就是特征参数提取。对特征参数的要求是:1,提取的特征参数能有效地代表语音特征,具有很好的区分性。2,各阶参数之间有良好的独立性。3,特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。 在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音喜好经过相同的通道得到语音参数,生成测试模版,与参考模版进行匹配,将匹配分数最高的参考模版作为识别结果。同时还可以在很多先验知识的帮助下,提高识别的准确率。 1.5语音识别技术难点 虽然语音识别已突破了最初对技术的检验阶段,而进入通过对话及系统形象的设计,建立用户喜爱的应用系统时期。然而语音技术本身仍在不断进步,为市场提供更新更好的应用模式和技术。目前,技术及应用的焦点主要集中在三个方面。 首先,带口音(Dialect)语音的识别。首先要明确的是,口音是指同一种语言在不同地区的发音有所不同,与同一地区(例如中国)的不同方言是有区别的。例如,中国的八大方言多属于与普通话(北方语系)不同的语系。也就是说是有别于普通话的不同的语言,应该用不同的声学模型来描述。而对于口音的适应性首先是由声学模型本身的品质决定的。对某一种口音,语言的声学模型的适应性决定了基础识别率,而在此基础上的优化和模型适应方案则提供了很好的解决方案。例如Nuance公司,作为拥有最大市场和最多用户的公司,也拥有最多的用户语音数据,保证了它极高的基础识别率。此外,该公司的系统优化工具为所有系统提供一个实

用、有效的优化方法。优化过程对所有系统的表现都会有提高,也可以解决小范围的口音问题。而针对严重的口音问题,它的声学模型适应机制提供了很好的解决方案,可以使系统的识别率有很大改善。 焦点之二是背景噪音。人多的公共场所巨大的噪音对语音识别的影响自不用说,早期即使在实验室环境下,敲击键盘、挪动麦克风都会成为背景噪音。它将破坏原始语音的频谱,或者把原始语音部分或全部掩盖掉,造成识别率下降。实际应用中,噪音是无法避免的。研究将要解决的问题就是如何把原始语音从背景噪音中分离出来,即所谓提高音质(speech enhancement)或减噪(noise reduction)的预处理。这将会使识别系统具有很强的适应性。在这方面,Nuance优化的语音参数、灵活的模型结构、新的建模方法以及独有的噪音抑制功能,使得系统在背景环境噪声、手机、车载免提等高噪音环境下能保持良好的工作状况。 第三个就是“口语”的问题。这就是用户说话的自由度问题。它既涉及到自然语言理解,又与声学有关。语音识别技术的最终目的是要让用户在“人机对话”的时候,能够像进行“人人对话”一样自然。而一旦用户以跟人交谈的方式来进行语音输入时,口语的语法不规范和语序不正常的特点会给语义的分析和理解带来困难。你也许接触到一些语音软件声称是可以做到自然语言识别,而在这方面真正有实用商业系统的只有Nuance公司。Nuance的最新版识别软件所提供的“随意说(Say anything)”技术,使用户可以以自然的 河南理工大学毕业设计(论文)说明书 4 语言说出自己的需求。例如,“我对我的手机上的一些功能不太明白,想问一下”,或者“嗯,我的账单应该到期了,请帮我查一下要交多少钱”。它为用户提供了一种像“人人对话”的自然语音交互界面,这种更加友善的界面允许一般对话时的一些行为,如停顿及不完全的语句等。 1.6语音识别发展前景 语音技术是目前世界上最热门和最具有发展前景的技术之一。从某种意义上说,语音识别是将计算机变成真正的“智能化”设备的最佳途径。语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音翻译将成为语音研究的热点。自然语音数据库的设计:语音特征的提取;利用语音料库进行声学模型训练的研究;适应说话人声学模型的研究;语音识别算法的研究:语言翻译和对话处理的研究等成为语音技术的热点方向。语音识别研究的另一个发展方向是人体语言与口语相结合的多媒体人机交互。目前这种采用声觉、视觉两种信息融合进行识

别的研究在全球范围内己经展开,成为语音识别研究的重要发展方向和研究热点之一。 一位业界的资深人士对IT产业发展的提出的八大预言之一即为:语音成为新人机界面。语音识别技术的成熟使人机界面发生革命性突破,网络时代用户需要更自然、更简单、更方便的以语音为中心点的人机界面。未来几年里,真正实用的语音识别和音字转换技术将首次走出实验室,走进千家万户的电器设备中。摩尔定律所预言的硬件产品奇迹般的更新速度使计算机处理复杂运算的能力突飞猛进,也使体积庞大的语音库有机会栖身于普通用户的硬盘或其他存储介质上;技术方面,新的语音统计算法日趋成熟:市场需求方面,简化PDA、移动电话和其他信息家电原本繁琐的操作步骤的最佳途径便是通过语音技术。 另外,语音识别是一门交叉学科,语音识别技术关系到多学科的研究领域,在不同领域上的进步都会促进语音识别的发展。(1)物理学(声学):声音产生与传播原理、声电转换以及声音在房间回响等相关知识。(2)生理学:有关人的声道与耳朵的生理结构、耳朵的听觉特征,在脑内高层的语言处理等。(3)统计学和模式识别理论;基于各种统计方法对模式进行匹配,以及建立有关的统计模型,对语音特征参数进行估值和分类。(4)信息理论和计算机科学:各种算法的研究、快速搜索查找匹配的方法。(5)语言学:有关人的语言产生、感觉方面的知识。(7)数字信号处理技术:信号的时域分析、噪声消除、数字滤波、线性预测等方面的知识。(8)微电子技术:超大规模集成电路(VLSI)技术的发展对语音识别的具体应用有很大的影响,VLSI使语音识别系统商品化成为可能。

相关主题