搜档网
当前位置:搜档网 › 语音识别基础讲义02

语音识别基础讲义02

语音识别基础讲义02
语音识别基础讲义02

第二章语音的特征

2.1发音的生理机构与过程

2.1.1 发音的生理机构

人的发音生理机构见图2.1。如图所示,

发音器官主要由以下三个部分所构成:

(1)主声道:一般将声门(声带开口处)

以上,经咽喉、口腔(舌、唇、腭、

小舌)的管道称为主声道。

(2)鼻道:经小舌和鼻的管道称为鼻道。

鼻道只有在发音时通过小舌下才被

打开。小舌上抬时鼻道将被关闭。

(3)次声门系统:经肺、支气管和气管

的管道称为次声门系统。

图2.1 发音器官示意图

2.1.2 语音的产生过程

语音的产生过程可分为音源产生、声道调音和向外辐射三个阶段。

音源可分为声带音源和非声带音源两大类,非声带音源又可分为噪声音源和爆破音源。声带振动周期称为基本周期(Fundamental Period),其倒数称为基本频率(Fundamental Frequency)。男性的基本频率一般为50~250Hz,女性的基本频率一般为100~500Hz。当发音的基本周期随时间变化时,便可感知重音和语调(Intonation)。音源波由基波及其谐波成分构成。

声道调音(Articulation)指为了发出各种各样的声音,需要诸如舌、口唇、腭等的器官对声道形状进行的调整。有了不同的声道形状,就能给出声道的不同的传递特性,并由于声道腔的共鸣作用,使得语音能量按频率发生强弱变化。声道腔共鸣特性反映在其频率特性上,便有一系列共振峰的出现,这些共振峰所对应的频率称为共振峰频率(Formant)。

根据产生的音源不同大致可形成以下三种语音:

(1)浊音(V: V oiced speech)的产生

音源是位于声门处的准周期空气脉冲序列。空气从肺部排出形成空气流,空气流经过声带时,如果声带是绷紧的,则将在声门处产生出一个准周期性脉冲气流。即声带产生弛张振动,形成周期性地开启和闭合。声带启开时空气流从声门喷射出来,形成一个脉冲,声门闭合时相应于脉冲序列的间隙。该空气脉冲流通过声道后最终从嘴唇辐射出声波,这便是浊音语音。

(2)清音(U: Unvoiced speech)的产生

音源是位于声道的某个收缩区的湍流(类似噪音)。如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气通过声门后,如果声道某个部位发生了收缩,形成了一个狭窄的通道,则当空气流到达此处时将被迫以高速气流冲过收缩区,并在附近产生出空气湍流。这种湍流空气通过声道后便形成所谓的清音(也称摩擦音)。

(3)爆破音(P: Plosive speech)的产生

音源是位于声道某个闭合点处建立起来的气压,其具有突然释放的特性。声带状态同湍流音源一样,但当空气通过声门后,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会让气压快速释放,经过声

道后便形成所谓的爆破音。

2.1.3语音分类

按主声道、鼻道可以将语音分为以下两种类型:

(1)口音:指在发音时气流不经过鼻腔的音,即通过主声道发出的音。

(2)鼻音:指在发音时气流经过鼻腔的音。

按音源的激励形式可以将语音分为以下三种类型:

(1)浊音:发音时声带振动使气流产生准周期的脉冲,这一空气脉冲激励声道而得到的音(也称有声语音)。

(2)清音:发音时声带不振动,仅以类似于宽带噪声音源输出的湍流气流高速冲过某处收缩的声道而产生的音(也称无声语音)。

(4)爆破音:由声道在完全闭合的情况下突然释放而产生的音。

2.2语音的基本特性

2.2.1语音的物理属性

语音既然是人的发音器官发出来的一种声波,它就和其它各种声音一样,也具有声音的物理属性。这就是说,每种音都具有一定的音色、音调、音强和音长。

音色是一种声音区别于其它声音的基本特征。音色因以下三个音素而不同,①发音体(声带)振动发出的音与声带不振动而由别的发音器官发出的音的音色不同;②虽然应用相同的发音器官,但采用送气的方法与不送气的方法发出的音的音色不同;③声道形状和尺寸的不同发出的音的音色不同。

音调是指声音的高低,它取决于声波的频率(也称语音基频),而声波频率又与发音体的长短、厚薄以及松紧程度有关。

音强是指声音的强弱,它是由声波振动幅度所决定的。

音长是指声音的长短,它取决与发音持续时间的长短。

2.2.2 汉语语音基础及其特性

任何语言的语音都有元音(V owel)和辅音(Consonant)两种音素(Phoneme),它们是按音素的发音特征来分类的。

音素:根据语言学(音韵论)的定义,声音的最小基本单位称为“音素”,采用音韵符号/ a / 表示。

元音:其特征是由声带振动而发音并且声道比较畅通。元音最重要的特色是由于声道中发生谐振的结果使声音具有音色。也就是说,每个元音的特点是由声道的形状和尺寸来决定的。

辅音:其特征是声道受阻,有无音响还在其次。辅音最重要的特色是语音流中有湍流和其它间断。发辅音时,如果声带不振动,发出的辅音称为清辅音(也称噪音),如果声带振则称为浊辅音。形成受阻的部位和发音方法的不同,发出的辅音也就不同。

声母和韵母是按汉语字音的结构来分类的。在我国,传统的音韵学对语音的分析,是采用音、韵、调系统的分析方法。每个“字音”分析为“声母”和“韵母”两部分,每个“字音”又有阴平、阳平、上声、去声四种声调。

声母:声母可以由辅音来充当,但辅音不一定就是声母。汉语普通话中共有22个辅音,除ng以外的21个可以作为声母(参见表2.1)。

韵母:韵母可以由元音来充当。它包括单韵母(一个元音)、复韵母(两个或两个以上

的元音)和带声韵母(元音和辅音、即用“n ”或“ng ”收尾的韵母)。

汉语普通话中有10个元音组成38个韵母。表2.2列举了35个韵母,另外“i 资” 、“i 知” 、“er ” 、“ ê” 为4个特殊韵母。

在汉语中一个字对应与一个音节(Syllable),所以它是由声母、韵母和声调按一定的方式构成的,它是语言的最小使用单位。

一般韵母又可分为韵头、韵腹和韵尾,韵头只能是“i ”、“u ”、“ü”,韵腹是主要部分,其发音较强,韵尾只能是“i ”、“u ”、“n ”和“ng ”,前两者可作为韵母独立存在。

表2.1 汉语辅音表

表2.2 汉语韵母表

声调具有区分字义的功能。对同一个

声母和韵母构成的字音,音调不同,则对 应的字也不同,意思也完全不同。图2.2 表示汉语四种声调的位置关系。

在汉语普通话中,并不是任何声母和 韵母都能组合拼成音节的,21个声母和35 个韵母共约配合成400个音节,再加上四个 声调组成1600个左右的带调音节。

5 4 3 2 1

图2.2 汉语四声位置图

语音可以直接用它的时间波形来表示。根据时间波形可以看出语音信号的一些重要特征。图2.3给出了一个音节字为“沙地(sha1di4)”的波形。从中可观察到以下几种类型的波形区间:

(1)静息波区间(S: Silence speech):这是语音未发声区间,反映在语音信号的始端、音节之间的间隙和语音信号的终端。在波形上是由背景噪声所构成的一条细线。

(2)准周期波区间(V: V oiced speech):这是元音“a”和“i”的波形,具有比较明显的周期性,各个元音的波形是不同的。在充分短(5ms~30ms)的时间区间(也称短时

区间)内,可观察到语音信号的变化非常缓慢,故可近似地认为在短时区间内语

音信号的特性基本上是不变的。对汉语语音,还可以从其周期性变化趋势推断出

声调变化等。另外,还能从波形推断出其能量主要集中在低频成分。

(3)噪声波区间(U: Unvoiced speech):这是辅音“sh(清擦音)”的波形,其振幅小于准周期波的振幅。从波形推断出其能量主要集中在高频成分。

(4)脉冲波区间:这是辅音“d(塞音)”的起始阶段波形。

(5)过渡区间:这是辅音与(或称转接)元音、元音与元音之间的过渡区间。

图2.3 汉语波形特征

语音还可以通过频谱表现(spectral representation)来描述其音素的特性。常用的有语谱图(sound spectrogram)。语谱图是一种用二维图形,用来描述语音能量在连续频率轴上随时间的变化规律。即其纵轴对应于频率,横轴对应于时间,图像浓黑程度正比于语音信号的能量。图2.4表示普通话的语谱图。

语谱仪的带通滤波器为宽带(300Hz)时,便可得到宽带语谱仪。这时由于时间分辨率高,因而可以明显看出时间波形的每个周期(纵向细线层)。但是,由于频率分辨率不高,不足以分辨激励所形成的细微结构(横向细线层)。宽带语谱仪能够清晰地显示出共振峰随时间的变化情况(参见图2.4(a))。窄带语谱仪(50Hz),因频率分辨率高,能显示出激励信号的基频及其各个谐波(参见图2.4(b))。但是,由于时间分辨率的下降,不能明显看出共振峰的变化。

图2.4 普通话语音(sha1 di4)的语谱图(上图为宽带,下图为窄带)

另外,在分析音素特性时,常用到振幅频谱图(或对数振幅谱)。对元音而言,在其频谱图上能清楚地看出浊音的基音及其谐波频率。此外,还能看到3~4个能量集中的区域,这就是对应的几个共振峰频率,从低到高分别称为F1 、F2 、F3等。表2.3给出了普通话七个韵母的共振峰频率。从表中可以看到,各韵母音色上的差异可用斗三个共振峰频率(F1、F2、F3)来表征,F1主要分布在290Hz至1KHz范围内,F2分布在500Hz至2.5KHz范围内,而F3分布在205Hz至4KHz范围内。图2.4给出了普通话六个韵母语音的频谱图

2.2.4语音的音律特性

汉语的音律特性,主要是指语音的音高、音强和音长等方面所显示出来的抑扬顿挫的特性。音高即对应了声调。从语音信号处理的角度讲,声调一般可用基频随时间变化的曲线来表征。音强指的是语音的轻重问题。一般存在三种重音,即正常重音、对比重音和轻音。正常重音的声学特点是,声调的完整性和音长的加长,而不是音强的加强。轻音首先失去了原有的声调,其次是音长大大缩短。对比重音不同于正常重音的地方是,它的音高范围大,音长更长,音强也往往有所增加。音强一般可用信号的能量、持续时间来表征。

语音的韵律特性还有待于进一步研究。

表2.3 汉语拼音七个韵母的共振峰频率(Hz)

图2.5 汉语六个韵母语音的频谱图

图2.4 普通话语音(sha1 di4)的语谱图(上图为窄带,下图为宽带)图2.3 汉语波形特征

图2.1 发音器官示意图

图2.5 汉语六个韵母语音的频谱图

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计 系:信息与通信工程 专业:通信工程 班级:081班 设计题目:基于matlab的语音识别系统 学生姓名: 指导教师: 完成日期:2011年12月27日

一.设计任务及要求 1.1设计任务 作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求 要求:使用matlab软件编写语音识别程序 二.算法方案选择 2.1设计方案 语音识别属于模式识别范畴,它与人的认知过程一样,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。 语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元,它的基本结构如图1所示。 图1 语音识别系统基本结构图 本次设计主要是基于HMM模型(隐马尔可夫模型)。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音信号中提取特征,与这些模

型进行匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。并且,HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图 图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变列。可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模型。其初始状态概率向量π,状态转移概率矩阵向量A,以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π,A,B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题: (1)识别问题:在给定的观测序列O和模型λ=(A,B,π)的条件下,如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法,它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定:如何选择一个最佳状态序列Q=q1q2…qT,来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题:如何调整模型参数λ=(A,B,π),使P(O︱λ)最大:这是三个问题中最难的一个,因为没有解析法可用来求解最大似然模型,所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。 第一个问题是评估问题,即已知模型λ=(A,B,π)和一个观测序列O,如何计算由该模型λ产生出该观测序列O的概率,问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。 第二个问题力图揭露模型中隐藏着的部分,即找出“正确的”状态序列,这是一个典型的估计问题。

基于matlab的语音识别技术

项目题目:基于Matlab的语音识别 一、引言 语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。 三、语音识别设计步骤 3.1语音信号的特征及其端点检测 图2 数字‘7’开始部分波形 图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。而在6800以后,信号幅度开始增强,并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。 这样可以很直观的用信号的幅度作为特征,区分静音和语音。只要设定一个

门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类 语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。(3)连续语音识别,连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话。 从识别对象的类型来看,语音识别可以分为特定人语音识别和非特定人语音识别,特定人是指针对一个用户的语音识别,非特定人则可用于不同的用户。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成 语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理,包括预滤波,采样和量化,加窗,端点检测,预加重等。语音信号经处理后,接下来很重要的一环就是特征参数提取。 图3 语音识别系统 在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模版,与参考模板进行匹配,将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。 全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述,LPC参数是模拟人的发声器官的,是一种基于语音合成的参数模型。 在语音识别中,很少用LPC系数,而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理 语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示: 未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法 目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。 动态时间规整算法(Dynamic Time Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。 隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。 矢量量化(Vector Quantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。 人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

语音识别基础讲义01

第一章 绪论 1.1 语音识别的重要性 1.1.1 语音信息处理与语音识别 人类利用语言相互交流信息,包括语音和文字两种表达方式。通过语音相互传递信息,这是人类最重要的基本功能之一。随着信息社会的发展,人与人之间,自不必说,即使在人与机器之间也每时每刻都需要进行大量的信息交换。人类在利用语音进行信息交流时,说话人大脑产生思想,通过语言转换,再由发声器官发出相应的语音;语音的声波经由空气传播到达听话人的耳朵,通过听觉器官将语音传送到大脑,由此理解该语音所表达的语言意义。这是人类进行信息交流与处理的过程。用计算机来模拟人类的这一交流信息的过程,包括以下几个部分: (1)将大脑产生的思想转换成语言; (2)将语言转换成相应的语音; (3)识别表达语言的语音内容; (4)理解语音所表达的语言意义。 上述(1)与(4)的部分属于自然语言生成和理解的研究范围,(2)的部分属于语音合成的研究范围;(3)的部分则属于语音识别的研究范围。图1.1为人与人之间、人与机器之间的语音信息处理流程的示意图。 图1.1 人与人之间、人与机器之间的语音信息处理流程图 1.1.2 语音识别的重要性 计算机语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。基于电话的语音识别技术,使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环(V oice-Commerce)。其次,语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作的声控技术起到重大的推进作用。因此可以预言,语音技术必将对工业、金融、商业、文化、教育等诸方面事业产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点,一些主要先进国家都把此工程列为国家级研究项目。 面对如此广阔的应用领域,目前国内外众多公司正积极推动语音识别技术的应用。 人与人之间的语音通信 (人 说话方 收听方 (机器

基于AVR单片机的语音识别系统设计

基于AVR单片机的语音识别系统设计 0 引言传统的人机交互依靠复杂的键盘或按钮来实现,随着科技的发展,一些新型的人机交互方式也随之诞生,带给人们全新的体验。基于语音识别的人机交互方式是目前热门的技术之一。但是语音识别功能算法复杂、计算量大,一般在计算机上实现,即使是嵌入式方面,多数方案也需要运算能力强的 ARM 或DSP,并且外扩RAM、FLASH 等资源,增加了硬件成本,这些特点 无疑限制了语音识别技术的应用,尤其是嵌入式领域。本系统采用的主控MCU 为Atmel 公司的ATMEGA128,语音识别功能则采用ICRoute 公司的单芯片LD3320。LD3320 内部集成优化过的语音识别算法,无需外部 FLASH,RAM 资源,可以很好地完成非特定人的语音识别任务。 1 整体方案设计1.1 语音识别原理在计算机系统中,语音信号本身的不确定性、动态性和连续性是语音识别的难点。主流的语音识别技术是基于统计模式识别的基本理论,原理如图1 所示。 语音识别通常需要两个阶段完成。第一阶段是训练,主要是提取语音特征,用户往往需要进行几次语音训练,经过预处理和特征提取后获得相应特征参数。第二阶段是识别,识别过程就是将输入的语音特征参数和模型库中的参数进行相似性比较,最后输出匹配度最高的特征参数完成识别过程。 2 硬件电路设计硬件框架如图2 所示,电路主要由主控制器电路和语音识别电路组成。ATMEGA128 控制LD3320 语音识别电路,输出结果由ATMEGA128 处理,然后通过总线来控制不同的设备。 2.1 控制器电路控制器选用Atmel 公司生产的ATMEGA128 芯片,采用先

基于深度学习的语音识别——文献阅读笔记

语音识别 1 《基于深度学习的语音识别应用研究》 语音识别主要作用就是把一段语音信号转换成相对应的文本信息,系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语音提取特征,经过声学模型表示,通过维特比解码得出识别结果。 特征 系统主要由声学特征提取、语言模型、声学模型和解码器等组成。 音识别中的特征包括:线性预测参数(LinearPredictionCoefficients,LPC)、倒谱系数(Cepstral Coefficients, CEP)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和感知线性预测系数(Perceptual Linear Prediction, PLP)等。 声学模型 声学基元选择 词(Word)、音节(Syllable)、声韵母(Initial/Final) 以及音素(Phone) HMM声学建模 隐马尔科夫模型 声学模型训练准则 最大似然准则 语言模型 统计语言模型,通过概率来表示词序列在语言环境中出现的可能性,并不是基于语法规则的简单判断。 解码器 通过在一个由语言模型、发声词典、声学模型构成的网络空间中 搜索得分较高的状态序列,其中这里的网络空间有动态网络和静态网络,得分主要由声学模型得分和语言模型得分共同决定。 语音识别的深度学习 CNN 将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度,这两维的物理意义完全不同!.

输入层、卷积核、特征图(feature map)都是一维的。 用Kaldi中特征提取工具以帧长25ms、巾贞移10ms,提取原始数据生成39维MFCC特征(12维滤波器输出值加上1维对数能量,以及其一阶差分和二阶差分)。分布满足a, =0及德尔塔=1,这么做可以直接避免训练样本分布的重新估计。 总结 通过深度神经网络提取语音特征的方法、深度神经网络提取声韵母属性的方法和深度学习搭建声学模型的方法的语音识别系统与MFCC特征下GMM-HMM 搭建的系统就词识别率的结果比较可以看出,深度学习网络替换GMM模型做状态输出的系统识别错误率最低,深度神经网络提取声韵母属性的方法的效果次之,深度神经网络提取语音特征效果比深度神经网络提取声韵母属性效果差,但是比MFCC的系统好。 2 卷积神经网络在语音识别中的应用 将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度。 DNN上实验证明,多帧串联的长时特征对模型性能的提高很重要。当前帧的前后几帧串联起来构成长时特征。 频域维度上,一般采用梅尔域的滤波带系数( filterbank) 作为参数( 如图% 中选择+ 个滤波频带) 在送入B++ 训练前,将多帧串联构成长时 特征!所有特征都进行了逐句的均值方差规整! 英文标准连续语音识别库TIMIT 主流的语音识别系统基本上都是以隐马尔科夫模型为基础所建立的 倒谱均值方差归一化、声道长度归一化以及RASTA滤波 用深度学习方法提取语音高层特征通常可以采用MFCC、PLP以及filter-bank 等参数作为输入。

文件和资料标准化管理制度

文件和资料标准化管理制度 1 目的 通过对公司文件资料的有效控制,确保工作现场使用唯一有效的文件资料,并形成统一规范的编写格式及 处理程序。 2 适用范围 本制度适用于公司所有公务文书、文件和资料的管理。 3 术语和定义 3.1 公文:指公司在处理各种公务时使用的应用文书,包括:决定、决议、通知、通报、报告、请示、批 复、函(电报)、会议纪要。 3.2 制度(程序):指要求公司成员共同遵守的,按一定程序办事的规程性文件。 3.3 办法:指公司针对某项工作依照其所需标准制定的考核奖惩性的文件。 3.4 标准:指公司对某项工作应达到的要求进行规范和约定的文件。 3.5 规章制度:公司各种制度、规定、办法的泛称。 3.6 记录:指公司对某项活动的各工作环节、结果进行记录,可供事后追溯该项活动完成质量的证据性文 件,主要为表格形式。 4 职责权限 4.1 经理负责公司制度、办法、标准、计划、记录和以公司名义下发的公文的批准。 4.2 管理者代表负责制度、办法、标准、计划、记录的审核。 4.3 各单位负责本单位相关文件资料的编写、审核、打印、校对工作。 4.4 总经办负责以公司名义下发执行的各类文件资料的编号、发放、收回、作废销毁和归档,负责对各单 位文件资料管理情况进行监督检查。 4.5 各单位负责以本单位名义下发执行的各类文件资料的编号、发放、收回、作废销毁和归档。 5 工作程序 5.1 文件资料的编写格式 5.1.1 文件资料的用纸标准: 公司各类文件资料的正式编印一般用A4(210mm×297mm)型纸张。图纸表格等不宜减小时,该页应按以上纸型尺寸折叠装订。张贴的公文用纸大小,根据实际需要确定。 5.1.2 文件和资料章、条、款的编排规则: 5.1.2.1 根据文件内容的编排划分,“章”就是一个章节,包括条和款,“条”是章的一个部分,“款”是章或条的一个 层次。章、条均用阿拉伯数字编号。 5.1.2.2 “章”应左起空两格书写,如第1章用“1”标注,右侧空一格写该章的标题,标题一行书写不够时,可另起一行,这一行的第一个字与标题的第一个字平排书写。章与章之间应空一行编排。 5.1.2.3 “条”在“章”的编号右下加一个小圆点,再写该条在该章所处的顺序,如第4章第1条,用“4.1”表示,后空一格书写该条的标题。如果一章的各条根据需要再分为若干下一层次的小条,其编号表示方法同上,如第4章第2条,再分3小条,则分另表示为“4.2.1”、“4.2.2”、“4.2.3”,如果“4.2.1”再分为2个小条,则分别表

语音识别技术基础知识

语音识别技术基础知识

————————————————————————————————作者:————————————————————————————————日期:

语音识别技术基础知识 6月27日,美国权威科技杂志《MIT科技评论》公布2017全球最聪明50家公司榜单。科大讯飞名列中国第一、全球第六。全世界排在科大讯飞前面企业分别是:英伟达、Spacex、亚马逊、23andme、Alphabet。《MIT科技评论》认为,“科大讯飞旗下的语音助手是中国版的Siri,其可携带实时翻译器则是一款杰出的人工智能应用,克服了方言、俚语和背景杂音,可将汉语精准地翻译成十几种语言。科大讯飞在中国语音技术市场的占有率70%。”越来越多的人认为,语音识别将成为下一代交互革命的关键技术。 与此同时,在日常生活中,我们已经习惯用Siri或者Cortana这样的语音助手在一些特定的情况下帮我们解决一些小问题,如在开车时制定本周的日常,简短地回复他人消息等等,然而,在大多数情况下语音助手的使用率并不高,据研究机构CreativeStrategies的调查-有62%的安卓用户从未使用过语音助手,而这个数字苹果用户中则是70%。是语音识别的技术还不够先进,还是人们不需要语音助手呢?Amazon Echo的成功或许能给我一些启示。 Amazon Echo是亚马逊公司于2014年11月推出的一款家庭语音助手,能够实现包括购物、控制智能家居、阅读Kindle、预约Uber、跟踪(亚马逊)快递、订披萨、计时、算术、放音乐、找手机、模仿雨声等等诸多功能,一经推出就点燃了市场的热情,据国外研究机构统计,2015年Echo的销量是170万台左右,2016年则增长至650万余台,而截至2017年1月,亚马逊Echo的全球销量已超过700万台,预计今年将突破1100万台。另据eMarketer的一份报告,在美国智能音箱市场,亚马逊Echo占据的市场份额超过70%。 同样是语音助手,为何Echo与Siri的境况如此不同呢,有研究者认为,这主要是两种产品使用环境不同而导致的。对于大多数人而言,在公共场合拿出手机,对着一个机器人说话不但缺乏隐私,同时多少有些不适;而在家庭中,面对家人和朋友,这点就能够有效避免,同时安静的环境更能有效提高机器识别的速度与精度,可以认为,Amazon Echo精准地切入了市场。然而,其他巨头也不甘人后,纷纷推出了自己的家庭智能语音助手:苹果推出了Home pod, 而google 也推出了google home. 看来,一场语音大战已经风雨欲来。

语音识别技术人工智能论文_大学论文

一:前沿 语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 二:语音识别技术概述 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术

开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 三.语音识别的研究历史 语音识别的研究工作始于20世纪50年代,1952年Bell 实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。 进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨

《语音识别入门教程》

语音识别入门(V1.0) 丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊 中科院自动化所高创中心,北京,100080 【摘要】本文主要以剑桥工程学院(CUED)的语音识别系统为例,并结合我们实验室自身的研究与开发经验,讲述当前主流的大词汇量连续语音识别系统(LVCSR)的框架和相关技术,对实验室的同学进行一个普及和入门引导。 【关键词】语音识别,HTK,LVCSR,SRI 1. 引言 语音识别技术发展到今天,取得了巨大的进步,但也存在很多的问题。本文主要以CUED 的语言识别系统为例,说明LVCSR系统技术的最新进展和研究方向,对实验室的同学进行一个普及和入门引导。 1.1 国际语音识别技术研究机构 (1)Cambridge University Engineering Department (CUED) (2)IBM (3)BBN (4)LIMSI (5)SRI (6)RWTH Aachen (7)AT&T (8)ATR (9)Carnegie Mellon University (CMU) (10)Johns Hopkins University (CLSP) 1.2 国际语音识别技术期刊 (1)Speech Communication (2)Computer Speech and Language (CSL) (3)IEEE Transactions on Speech and Audio Processing 1.3 国际语音识别技术会议 (1)ICASSP(International Conference on Acoustic, Speech and Signal Processing)每年一届,10月截稿,次年5月开会。 (2)ICSLP(International Conference on Spoken Language Processing) 偶数年举办,4月截稿,9月开会。

基于Matlab的语音识别系统的设计

摘要 语音识别主要是让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息执行人的各种意图。语音识别技术既是国际竞争的一项重要技术,也是每一个国家经济发展不可缺少的重要技术支撑。本文基于语音信号产生的数学模型,从时域、频域出发对语音信号进行分析,论述了语音识别的基本理论。在此基础上讨论了语音识别的五种算法:动态时间伸缩算法(Dynamic Time Warping,DTW)、基于规则的人工智能方法、人工神经网络(Artificial Neural Network,ANN)方法、隐马尔可夫(Hidden Markov Model,HMM)方法、HMM和ANN的混合模型。重点是从理论上研究隐马尔可夫(HMM)模型算法,对经典的HMM模型算法进行改进。 语音识别算法有多种实现方案,本文采取的方法是利用Matlab强大的数学运算能力,实现孤立语音信号的识别。Matlab 是一款功能强大的数学软件,它附带大量的信号处理工具箱为信号分析研究,特别是文中主要探讨的声波分析研究带来极大便利。本文应用隐马尔科夫模型(HMM) 为识别算法,采用MFCC(MEL频率倒谱系数)为主要语音特征参数,建立了一个汉语数字语音识别系统,其中包括语音信号的预处理、特征参数的提取、识别模板的训练、识别匹配算法;同时,提出利用Matlab图形用户界面开发环境设计语音识别系统界面,设计简单,使用方便,系统界面友好。经过统计,识别效果明显达到了预期目标。 关键词:语音识别算法;HMM模型;Matlab;GUI ABSTRACT Speech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important internationally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recognition technology.Five algorithm are discussed:Dynamic Time Warping(DTW)、Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm is improved. Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with signal processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MEL

文件资料标准化管理制度

【最新资料Word版可自由编辑!!】 文件资料标准化管理制度 1 目的

为进一步加强文件管理,规范文件流程,提高工作效率和办文效率,充分发挥文件上传下达的作用,确保公司政令畅通,特制定本制度。 2 适用范围 2.1 本制度适用于公司文件资料的管理. 2.2 本制度指的文件资料包括公文、管理制度、计划、外来文件和资料等。 3职责权限 3.1行政办负责以公司名义上报、下发执行的各类文件资料的编号、发放、收回、归档和销毁。 3.2 其它各部门负责以部门名义上报、下发的各类文件资料的管理,行政办负责文件资料审查、打印、校对工作。 3.4各部门的对外文件,经行政部文字格式的审核,上报主管副总经理审批。 4 术语定义 4.1 公文——指总公司在处理各种公务时使用的应用型文书,包括:决定、决议、通知、通报、报告、请示、批复、函、会议纪要。 4.2 管理制度——指要求公司成员共同遵守,按一定程序工作、达到一定标准,并进行考核的文件。 4.3 计划——指总公司为完成一定时期内的工作任务,而事先做出安排的文件。 5 工作内容及程序 5.1 文件资料的编写格式 5.1.1 文件资料的用纸标准 型纸张。图样表格等不宜减小时,该页必须按以上尺寸折叠装订。 一般用型A 4 5.1.2 文件和资料章、条、款的编排规则 5.1.2.1 根据文件内容的编排划分,章就是一个章节,包括条和款,条是章的一个部分,款就是章或条的一个层次。 5.1.2.2 章用阿拉伯数字表示,第一章就用“1”表示,以下按顺序依次类推。“章”应左起空两格书写,右侧空一格写该章的标题,该标题一行书写不够,可另起一行,但这一行的第一个字与该标题的第一个字平排书写。章与章之间应空一行编排。

语音识别基础讲义02

第二章语音的特征 2.1发音的生理机构与过程 2.1.1 发音的生理机构 人的发音生理机构见图2.1。如图所示, 发音器官主要由以下三个部分所构成: (1)主声道:一般将声门(声带开口处) 以上,经咽喉、口腔(舌、唇、腭、 小舌)的管道称为主声道。 (2)鼻道:经小舌和鼻的管道称为鼻道。 鼻道只有在发音时通过小舌下才被 打开。小舌上抬时鼻道将被关闭。 (3)次声门系统:经肺、支气管和气管 的管道称为次声门系统。 图2.1 发音器官示意图 2.1.2 语音的产生过程 语音的产生过程可分为音源产生、声道调音和向外辐射三个阶段。 音源可分为声带音源和非声带音源两大类,非声带音源又可分为噪声音源和爆破音源。声带振动周期称为基本周期(Fundamental Period),其倒数称为基本频率(Fundamental Frequency)。男性的基本频率一般为50~250Hz,女性的基本频率一般为100~500Hz。当发音的基本周期随时间变化时,便可感知重音和语调(Intonation)。音源波由基波及其谐波成分构成。 声道调音(Articulation)指为了发出各种各样的声音,需要诸如舌、口唇、腭等的器官对声道形状进行的调整。有了不同的声道形状,就能给出声道的不同的传递特性,并由于声道腔的共鸣作用,使得语音能量按频率发生强弱变化。声道腔共鸣特性反映在其频率特性上,便有一系列共振峰的出现,这些共振峰所对应的频率称为共振峰频率(Formant)。 根据产生的音源不同大致可形成以下三种语音: (1)浊音(V: V oiced speech)的产生 音源是位于声门处的准周期空气脉冲序列。空气从肺部排出形成空气流,空气流经过声带时,如果声带是绷紧的,则将在声门处产生出一个准周期性脉冲气流。即声带产生弛张振动,形成周期性地开启和闭合。声带启开时空气流从声门喷射出来,形成一个脉冲,声门闭合时相应于脉冲序列的间隙。该空气脉冲流通过声道后最终从嘴唇辐射出声波,这便是浊音语音。 (2)清音(U: Unvoiced speech)的产生 音源是位于声道的某个收缩区的湍流(类似噪音)。如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气通过声门后,如果声道某个部位发生了收缩,形成了一个狭窄的通道,则当空气流到达此处时将被迫以高速气流冲过收缩区,并在附近产生出空气湍流。这种湍流空气通过声道后便形成所谓的清音(也称摩擦音)。 (3)爆破音(P: Plosive speech)的产生 音源是位于声道某个闭合点处建立起来的气压,其具有突然释放的特性。声带状态同湍流音源一样,但当空气通过声门后,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,一旦闭合点突然开启便会让气压快速释放,经过声

公司文件和资料标准化管理制度

公司文件和资料标准化管理制度 1.目的 通过对公司文件资料的有效控制,确保工作现场使用唯一有效的文件资料,并形成统一规范的编写格式及处理程序。 2.适用范围 本制度适用于公司所有公务文书、文件和资料的管理。 3.术语和定义 3.1 公文:指公司在处理各种公务时使用的应用文书,包括:决定、决议、通知、通报、报告、请示、批复、函(电报)、会议纪要。 3.2 制度(程序):指要求公司成员共同遵守的,按一定程序办事的规程性文件。 3.3 办法:指公司针对某项工作依照其所需标准制定的考核奖惩性的文件。 3.4 标准:指公司对某项工作应达到的要求进行规范和约定的文件。 3.5 规章制度:公司各种制度、规定、办法的泛称。 3.6 记录:指公司对某项活动的各工作环节、结果进行记录,可供事后追溯该项活动完成质量的证据性文件,主要为表格形式。 4.职责权限 4.1 经理负责公司制度、办法、标准、计划、记录和以公司名义下发的公文的批准。 4.2 管理者代表负责制度、办法、标准、计划、记录的审核。 4.3 各单位负责本单位相关文件资料的编写、审核、打印、校对工作。 4.4 总经办负责以公司名义下发执行的各类文件资料的编号、发放、收回、作废销毁和归档,负责对各单位文件资料管理情况进行监督检查。 4.5 各单位负责以本单位名义下发执行的各类文件资料的编号、发放、收回、作废销毁和归档。 5.工作程序 5.1 文件资料的编写格式 5.1.1 文件资料的用纸标准:公司各类文件资料的正式编印一般用a4(210mm×297mm)型纸张。图纸表格等不宜减小时,该页应按以上纸型尺寸折叠装订。张贴的公文用纸大小,根据实际需要确定。 5.1.2 文件和资料章、条、款的编排规则: 5.1.2.1 根据文件内容的编排划分,“章”就是一个章节,包括条和款,“条”是章的一个部分,“款”是章或条的一个层次。章、条均用阿拉伯数字编号。 5.1.2.2 “章”应左起空两格书写,如第1章用“1”标注,右侧空一格写该章的标题,标题一行书写不够时,可另起一行,这一行的第一个字与标题的第一个字平排书写。章与章之间应空一行编排。 5.1.2.3 “条”在“章”的编号右下加一个小圆点,再写该条在该章所处的顺序,如第4章第1条,用“4.1”表示,后空一格书写该条的标题。如果一章的各条根据需要再

语音识别基础讲义00

语音识别基础讲义 吴亚栋 上海交通大学计算机科学与工程系 2000年1月

目录 第一章绪论 (1) 1.1语音识别的重要性 (1) 1.1.1语音信息处理与语音识别 1.1.2语音识别的重要性 1.2语音识别的定义、原理和分类 (2) 1.2.1语音识别的定义 1.2.2语音识别的基本原理 1.2.3语音识别的分类 1.3本课程的内容与要求 (4) 1.4语音识别的历史回顾 (4) 1.4.1 国外语音识别的历史 1.4.2我国语音识别的历史 第二章语音的特征 (7) 2.1发音的生理机构与过程 (7) 2.1.1发音的生理机构 2.1.2语音的产生过程 2.1.3语音分类 2.2语音的基本特性 (8) 2.2.1语音的物理属性 2.2.2汉语语音基础及其特性 2.2.3语音的波形特征 2.2.4语音的频谱特性 2.2.5语音的音律特性 第三章用于语音识别的信号处理及分析方法 (13) 3.1短时分析与窗函数 (13) 3.1.1语音信号的数字化 3.1.2短时分析概要 3.1.3几种典型的窗函数 3.2时域分析 (14) 3.2.1短时平均能量、幅度及过零数 3.2.2短时自相关函数与平均幅度差函数 3.2.3中值滤波 3.3频域分析 (16) 3.3.1傅里叶分析概要 3.3.2短时离散傅里叶变换(DFT: Discrete Fourier Transform) 3.3.3DFT与快速傅里叶变换(FFT: Fast Fourier Transform ) 3.3.4振幅谱和功率谱 3.4倒谱域分析 (17)

3.4.1倒谱的概念 3.4.2倒谱的分析流程 3.4.3倒谱系数的求法 3.4.4倒谱分析在语音识别中的用途 3.5线性预测分析 (19) 3.5.1线性预测分析的概念 3.5.2线性预测系数的求法 3.5.3线性预测分析在语音识别中的用途 3.6矢量量化法(VQ: Vector Quantization) (21) 3.6.1矢量量化的原理 3.6.2码本设计---LBG算法(2分割法)概要 3.6.3矢量量化在语音识别中的用途 第四章基于模式匹配方式的语音识别技术 (24) 4.1语音的端点检测 (24) 4.1.1语音端点检测的难点 4.1.2采用能量及过零数参数的检测法 4.2失真测度 (25) 4.2.1距离测度与失真测度 4.2.2几种典型的失真测度 4.3动态时间规正法(DTW: Dynamic Time Warping) (26) 4.3.1语音模式匹配的问题点 4.3.2DTW的原理 4.3.3DTW的具体解法 4.4基于DTW技术的语音识别方案 (29) 第五章基于统计模型(HMM)方式的语音识别技术 (30) 5.1基于统计模型框架的识别法 (30) 5.1.1预备知识 5.1.2基于统计模型框架的识别法 5.2隐马尔柯夫模型(HMM)的概念 (31) 5.2.1马尔柯夫过程 5.2.2隐马尔柯夫模型的概念 5.2.3HMM的要素及其模型描述 5.2.4基于HMM的观察符号序列的生成方式 5.3HMM的三个基本问题及其解法 (33) 5.3.1HMM的三个基本问题 5.3.2模型评估问题的解法 5.3.3最佳路径问题的解法 5.3.4模型训练问题的解法 5.4基于HMM的孤立字(词)语音识别方案 (37) 第六章孤立字(词)语音识别系统 (39) 6.1语音输入装置的实用化条件 (39)

相关主题