搜档网
当前位置:搜档网 › 基于连续状态HMM的汉语语音识别方法

基于连续状态HMM的汉语语音识别方法

基于连续状态HMM的汉语语音识别方法
基于连续状态HMM的汉语语音识别方法

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

《语音识别入门教程》

语音识别入门(V1.0) 丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊 中科院自动化所高创中心,北京,100080 【摘要】本文主要以剑桥工程学院(CUED)的语音识别系统为例,并结合我们实验室自身的研究与开发经验,讲述当前主流的大词汇量连续语音识别系统(LVCSR)的框架和相关技术,对实验室的同学进行一个普及和入门引导。 【关键词】语音识别,HTK,LVCSR,SRI 1. 引言 语音识别技术发展到今天,取得了巨大的进步,但也存在很多的问题。本文主要以CUED 的语言识别系统为例,说明LVCSR系统技术的最新进展和研究方向,对实验室的同学进行一个普及和入门引导。 1.1 国际语音识别技术研究机构 (1)Cambridge University Engineering Department (CUED) (2)IBM (3)BBN (4)LIMSI (5)SRI (6)RWTH Aachen (7)AT&T (8)ATR (9)Carnegie Mellon University (CMU) (10)Johns Hopkins University (CLSP) 1.2 国际语音识别技术期刊 (1)Speech Communication (2)Computer Speech and Language (CSL) (3)IEEE Transactions on Speech and Audio Processing 1.3 国际语音识别技术会议 (1)ICASSP(International Conference on Acoustic, Speech and Signal Processing)每年一届,10月截稿,次年5月开会。 (2)ICSLP(International Conference on Spoken Language Processing) 偶数年举办,4月截稿,9月开会。

语音识别的非线性方法

52国家自然科学基金资助项目.收文日期:1997年6月12日(June 12,1997) ΞV ol.3N o.1M arch 1998 电路与系统学报JOURNAL OF CIRCUIT S AND S Y S TEMS 第3卷第1期 1998年3月Ξ 语音识别的非线性方法董远胡光锐 (上海交通大学电子工程系,上海,200030) 【摘要】语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来人们开始逐渐重视非线性理论在语音识别技术中的应用。本文概括地介绍了非线性理论在语音识别技术中的所取得的成果和发展方向,除了涉及较为流行的隐马尔柯夫过程和人工神经网络在语音识别中的应用外,文中着重论述了近年来发展迅猛的混沌、分形理论在语音识别中的应用,本文最后还提到了不可忽视的分形理论在语音编码中的应用。 【关键词】语音识别,隐马尔柯夫过程,人工神经网络,混沌,分形,迭代函数系统,语音编码 Non 2linear Methods for S p eech Reco g nition D on g Y uan Hu G uan g rui (De p t.of E lectronic En g ineerin g ,Shan g hai Jiaoton g Universit y ,Shan g hai ,200030) Abstract :S p eech si g nal is traditionall y treated as a linear p rocess.H ow ever ,it is indicated b y extensive research that the s p eech si g nals are actuall y com p licated non 2linear p rocesses.T o im p rove the reco g nition rate ,recent research ef 2fort has started to m i g rate to anal y ze s p eech si g nal usin g non 2linear theor y .T his article summ arizes the new develo p m ent in this area.Besides HM M and ANN ,which have been w idel y used b y m an y authors ,this p a p er introduces in p articular a series of fast g row in g non 2linear such as chaotic and fractal theories and their a pp lications in s p eech reco g nition and codin g . K e y w ords :s p eech reco g nition ,HM M ,ANN ,chaos ,fractal ,IFS ,s p eech codin g 引言 语音识别技术自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,语音识别的研究愈来愈受到人们的重视。 语音信号处理分别基于确定性线性系统理论和不确定性非线性系统理论。80年代的子词单元、多级识别、多模板和聚类技术、连续语音匹配技术等语音识别方法都是基于线性系统理论。经研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来发展起来并逐渐完善的非线性科学为语音识别技术的发展带来了新的生机。 1语音识别与隐马尔柯夫过程(HM M ) 在传统的线性理论难以使得语音识别技术进一步提高时,随着对隐马尔柯夫模型(HM M )的重新认识和广泛应用,掀起了语音识别研究的一个热潮[1]。 语音信号是短时平衡的随机信号,在足够小时音段上语音信号的特性近似稳定,就整个语音序列而言,它可以看成是依次从相对稳定的某一状态过渡到另一状态。尽管如此,语音信号序列用一个按预定顺序排列的状态转移过程来描述是不够充分的,因为不同发音人、不同的发音环境、不同的发音时间发

语音识别方法

语音识别方法 语音特征提取 将语音信号转换为特征向量,通过这些向量来进行语音相关任务的训练与识别。 语音识别对特征参数有如下要求: 1. 能将语音信号转换为计算机能够处理的语音特征向量; 2. 能够符合或类似人耳的听觉感知特性; 3. 在一定程度上能够增强语音信号、抑制非语音信号; 常用特征提取方法有如下几种: ●LPC ●声谱图 ●倒谱分析 ●MFCC (最常用) 声谱图 将一段连续的语音信号通过分帧、FFT、灰度映射转换为离散、低维的特征向量,框架图如下:

声谱图表示法流程 基本流程如下: (1)将一段语音做分帧处理,即将其剪切为一段段语音片段(20~50ms之间); (2)将每一帧的语音信号通过短时傅里叶变换(FFT)转为频域信号,得到每一帧的频 谱图,如下图所示,横轴为频率、纵轴为当前频率对饮的能量值。在实际使用中,频谱图有 三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号);

语音频谱图 (3)将每一帧的频谱值映射为灰度图,灰度的深浅就代表了该频率段能量的大小,很黑的地方就是频谱图中的峰值(共振峰formants)。 倒谱分析 倒谱就是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。倒谱分析 的目标是:从语音频谱中得到它的频谱包络(连接所有共振峰值点的平滑曲线),它在语音识别中被广泛用于描述特征。主要流程如下: 1.将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[k],只考虑幅度就是:|X[k] |=|H[k]||E[k] |; 2.我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||; 3.再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。 下面是一个语音的频谱图。峰值就表示语音的主要频率成分,把这些峰值称为共振峰(formants),而共振峰就是携带了声音的辨识属性,用它就可以识别不同的声音。因此,需要把它提取出来。提取的不仅是共振峰的位置,还得提取它们转变的过程。所以我们提取

语音识别程序开发方法

VB6.0环境下的语音识别程序开发方法 王军童强 (湖北师范学院计算机科学与技术学院,湖北黄石435002) 摘要:语音识别技术是将音频数据转换成文本或其它形式的计算机可以处理的信息的技术。而语音识别程序就是基于该类技术的计算机应用程序,这类应用程序也正越来越多的受到广大用户的青睐。通过介绍一种基于VB6.0环境下的语音识别程序的开发方法,以此开发方法为切入点分析该开发方法的优缺点及其应用前景,并结合当前技术的发展趋势展望这类技术的发展方向和可能的发展结果。 关键词:语音识别程序;VB6.0环境;语音识别程序开发方法 The method of Speech Recognition program development in VB6.0 Wangjun TongQiang (College of Computer Science & Tecnology ,Hubei normal University,Huangshi 435002 china) Abstract: Speech recognition technology is the audio data into text or other forms of information that could be dealt with computer technology. The speech recognition process is based on such technology, computer applications, such applications are more and more favored by the majority of users. In this paper, by introducing the VB6.0 environment based on the speech recognition program to develop methods and entry points to the development of methods for the analysis of the advantages and disadvantages of the development methodology and its application prospects, combined with the current trend of technological development prospects of such technologies the direction and development of possible results. Key words:Speech recognition procedures VB6.0 program development environment Speech recognition devolopment method 中图分类号:文献标志码:A 1 引言 语音识别是一个复杂的过程,语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。[1]

相关主题