搜档网
当前位置:搜档网 › 汉语连续语音识别中声学模型

汉语连续语音识别中声学模型

汉语连续语音识别中声学模型
汉语连续语音识别中声学模型

第六届全国人机语音通讯学术会议,267-271页,2001年11月20-22日,深圳

汉语连续语音识别中声学模型基元比较汉语连续语音识别中声学模型基元比较::

音节音节、、音素音素、、声韵母

李净,徐明星,张继勇,郑方,吴文虎,方棣棠 语音技术中心,智能技术与系统国家重点实验室,

清华大学计算机科学与技术系, 北京, 100084

[lijing, xumx, zjy, fzheng, wuwh]@https://www.sodocs.net/doc/781483308.html,,

fangdt@https://www.sodocs.net/doc/781483308.html, https://www.sodocs.net/doc/781483308.html,

摘要 本文研究的是汉语连续语音识别中声学模型基元的选

择问题。根据汉语语音的特点,本文分别采用音节、

音素和声韵母等三种语音识别基元进行声学建模。为

了描述连续语音中的协同发音现象,本文针对音素和

声韵基元,设计了相应的问题集,利用基于决策树的

状态共享策略建立了上下文相关音素模型

(Triphone )和上下文相关声韵模型(TriIF ),并对

几种声学基元进行了对比。实验结果表明,对于上下

文无关模型,音素和声韵模型都要劣于音节模型,而

对于上下文相关模型,Triphone 和TriIF 模型与音节

模型相比,识别性能有了很大提高,其音节误识率分

别降低了8.5%和23.6%。

1. 引言

声学建模是连续语音识别中声学层面处理的关键步骤。声学模型用来描述识别基元对应的特征矢量序列的产生过程。通过声学建模,可以估计待识别特征矢量序列所对应的语音识别基元,从而完成特征矢量序列到语音识别基元的识别转换。 基元的选择是声学建模中一个基本而重要的问题。在汉语连续语音识别中,可以选择的基元包括:词(Word )、音节(Syllable )、半音节(Semi-Syllable )、声韵母(Initial/Final )、音素(Phone )等。识别基元的选择一般是基于语音学知识的,但是,基元也可以通过数据驱动的方式来产生,使用这种方式确定的基元可能在语音学上没有什么明确的意义,但也可以达到很好的性能。 对于词,在小词表语音识别系统中,或者命令与控制(Command & Control )系统中,使用词作为识别基元是适当的。但是,在连续语音识别中将词作为识别基元是不合适的。首先,在连续语音识别系统中,词条的数目比较多,一般都要使用几千或者几万

条词条,所以声学模型的规模必然很大。这不但会增

加存储的开销,还会极大地增加搜索的复杂度。其

次,当词表以外的词条,即OOV (Out Of

Vocabulary )问题出现时,声学模型处理起来比较困

难。第三,要对这么多基元进行训练,必然需要一个

很大的数据库,并且要尽量覆盖词表中的词条,这一

点是很难达到的。所以,在汉语连续语音识别系统

中,采用类似于词这样较长的语音段作为识别基元是

不合适的。 对于音节,在汉语中,无调音节约有400个,如果考虑音调,有1300多个有调音节[1]。在进行上下文无关的声学建模时,使用有调或者无调音节是可以的,而且还可以取得相当好的性能,因为音节作为识别基元时,它很好地刻划了音节内部的变化。但是,在连续语音识别中,音节间的协同发音现象是比较严重的,因此,必须采用适当的方式来描述这种现象。一般地,上下文相关信息应在声学建模中加以考虑,这样,识别基元就会变成上下文相关的基元。如果采用音节作为识别基元,当考虑上下文信息时,基元数目会变得非常庞大,这将会使声学模型的规模变得无法接受。同时,由于基元数目过大,也会引起训练数据稀疏的问题,从而难以对模型参数给出较为准确的估计。所以,在进行上下文相关建模时,不适宜采用

音节模型。 音素在汉语中有三十多个(本文中定义的音素数目为35个)。音素基元在英语连续语音识别系统中得到了广泛的应用,并取得了很好的识别性能[2][3]。由此可见,音素也是一个很好的选择。但音

素并没有反映出汉语语音的特点,而且,相对于声韵母,音素显得更加不稳定,这一方面给手工标注带来了困难,同时,也给声学描述带来困难。

对于半音节和声韵母,它们在形式和数量上十分接近。半音节就是将音节分为两部分,而声韵母的划分更依赖于汉语语音学的知识。可以说,声韵母基元是适合汉语特点的一种识别基元,使用这种基元,还可以有很多语言学知识可以利用,从而进一步提高声

学模型的性能。声韵母作为识别基元具有以下优点: ? 汉语中的汉字是单音节的,而汉语中的音节是声韵结构的,这种独特而规则的结构,使对音节、以及词条的表示变得比较规则和统一; ? 使用声韵母作为识别基元,上下文相关信息也变得比较确定。比如,与声母相接的只能是韵母或者静音,而与韵母相接的也只能是声母或静音,而且,韵母左边相接的声母只能是与其搭配起来能够成汉语音节的那些声母。所以,上下文相关的声韵母基元的数目并不是基元数目的立方,而是远远小于这个数值的。

?声韵母结构是汉语音节独特的一种结构,有很多关于声韵母的语音学方面的知识和研究成果可以被我们采用,以优化上下文相关声学模型。

?选择声韵母作为基元,它的语音段长度,以及基元数目都是比较适当的。如果不考虑上下文信息,本文中定义的声韵母共有59个,其中声母21个,韵母38个。

同时,在连续语音中,协同发音现象是十分严重的,因此,要得到性能较高的声学模型,需要利用好上下文相关信息,即进行上下文相关建模。基于决策树的状态共享策略已经广泛的应用于连续语音识别中。本文也采用这种策略来进行上下文相关建模。

根据上面的分析,本文对适合汉语特点的三种基元:音节、音素、声韵母进行了对比实验,并利用基于决策树的状态共享策略进行了上下文相关建模,给出了对比结果。

2.识别基元定义

2.1.音节

音节基元

基元

选择音节作为识别基元是符合汉语语音特点的。本文定义了418个无调音节作为连续语音识别中的音节基元定义。如“a”,“ai”,“ang”,……,“zuo”等。

2.2.音素基元集合

本节给出音素基元的定义[4],其中辅音基元22个,元音基元13个,音素基元总数为35,如表1所示。对于元音基元的定义,表2给出了较为详细的说明。

表 1:音素基元定义

辅音基元 (22) 元音基元 (13)

b ,c, ch, d, f, g, h, j, k, l, m, n, ng, p, q, r, s, sh, t, x, z, zh aI, a, Ie, eI, eN, e, Ci, Chi, Bi, oU, o, u, v

表 2:元音音素基元定义

元音音素定义

/aI/ 在韵母“ai”,“an”中的音素“a”

/a/ 在其它条件中的音素“a”

/Ie/ 在韵母“ie”中的音素“e”

/eI/ 在韵母“ei”中的音素“e”

/eN/ 在韵母“en”中的音素“e”

/e/ 在其它条件中的音素“e”

/Ci/ 在音节“ci”,“si”,“zi”中的音素“i”

/CHi/ 在音节“chi”,“shi”,“zhi”中的音素“i”

/Bi/ 在其它条件中的音素“i”

/oU/ 在韵母“ou”中的的音素“o”/o/ 在其它条件下的音素“o”

/u/ 元音音素“u”

/v/ 音节“yu”中的元音音素

每个音节由若干音素基元串组成。比如音节“ai”用音素“aI”和“Bi”构成,音节“bin”由音素“b”,“Bi”和“n”构成。

2.3.标准声韵母基元集合

声韵母基元集合((IF)

表 3:标准声韵母基元定义

声母基元 (21) 韵母基元 (38) b, p, m, f, d, t, n, l,

g, k, h, j, q, x,

zh, ch, sh, z, c, s, r,

a, ai, an, ang, ao, e, ei,

en, eng, er, o, ong, ou, i,

i1, i2, ia, ian, iang, iao,

ie, in, ing, iong, iou, u,

ua, uai, uan, uang, uei,

uen, ueng, uo, v, van,

ve, vn

表3给出了标准的声韵母基元定义,一共有21个声母和38个韵母。在这种定义下,有些带有零声母的音节只对应一个韵母基元,而没有对应的声母基元。

2.4.扩展的声韵母集合

的声韵母集合((XIF)

可以认为每个音节都是由两部分组成的,分别对应其声母部分和韵母部分。根据汉语音节的这种特点,本文定义了六个零声母{_a, _o, _e, _I, _u, _v },这样就得到了扩展的声韵母基元集合。扩展的声韵母定义见表4。

表 4:扩展的声韵母基元定义

声母基元 (27) 韵母基元 (38) b, p, m, f, d, t, n, l,

g, k, h, j, q, x,

zh, ch, sh, z, c, s, r,

_a, _o, _e, _I, _u, _v

a, ai, an, ang, ao, e, ei,

en, eng, er, o, ong, ou,

i, i1, i2, ia, ian, iang,

iao, ie, in, ing, iong,

iou, u, ua, uai, uan,

uang, uei, uen, ueng,

uo, v, van, ve, vn

当使用标准的声韵母基元集合时,有一些音节只有韵母部分,而没有声母部分。所以,当考虑上下文相关信息时,这些韵母既可以搭配声母,又可以搭配韵母,因此,上下文相关声韵母基元数目会很大。而使用扩展的声韵母基元集合时,韵母的上下文只能是声母或静音,声母的上下文只能是韵母或静音,所以,上下文相关基元数目会明显减少。在本文的实验中,如果采用扩展的声韵母基元,上下文相关基元数目约有3万个,而使用标准的声韵母集合,上下文相关基元数目则超过10万。

另一方面,通过实验也可以看出,如果没有引入零声母,那些带有零声母的音节将会和其它音节的韵母部分共享模型参数,从而在识别中增加了许多插入错误。

从后面的结果中可以看出,扩展的声韵母基元要优于标准的声韵母基元,所以,在进行上下文相关建

模时,本文采用扩展的声韵母基元集合。后文中的TriIF指的是由扩展的声韵母产生的上下文相关基元。

3.基于决策树的状态共享策略

如前所述,在连续语音中,协同发音现象是十分严重的,因此,建立上下文相关模型来描述这种现象是很有必要的。对于音节模型,由于基元数目过多,当考虑上下文信息时,基元数目会变得非常庞大,很难进行上下文相关建模。而对于音素和声韵模型,基元数目适当,则可以进行上下文相关建模。

对于音素和声韵母基元,在进行上下文相关建模时,由于基元数目庞大,训练数据就变得稀疏,一般会有一半左右的基元没有训练数据。因此,必须进行模型或参数的共享来解决这个问题。本文中使用基于决策树的状态共享策略。

基于决策树的状态共享策略已经广泛地应用于改善大词表连续语音识别系统的声学模型性能[5][6][7]。这种方法与数据驱动方法相比最大的优点就是对训练数据稀少的基元和没有训练样本的基元能够给出适当的参数估计。其次,决策树方法具有的另一个优点是可以调整分类数目,以适应声学模型的鲁棒性和训练数据稀疏的矛盾。本节介绍此技术中的两个关键问题,一个是问题集的设计,另一个是决策树的构造。

3.1.问题集的设计

决策树是一个二叉树,每个结点都绑定着一个“Yes/No”问题,所有允许进入根结点的状态要回答结点上绑定的问题,根据回答的结果选择进入左枝还是右枝。最后,每个进入跟结点的状态都会根据对一系列结点问题的回答进入适当的(也是唯一的)一个叶子结点。进入同一个叶子结点的状态会被认为是相似的而共享起来。而问题集就是供决策树构造使用的,结点分裂时选中的那个问题,就与此结点绑定,从而决定哪些基元的哪些状态被共享起来。问题集的好坏会影响到上下文相关模型的性能。

本文中使用的问题集是基于语音学知识的[8][9][10][11]。根据这些先验知识,中心基元的上下文(即中心基元左右两边相邻的基元)被划分为若干类,每一类作为一个问题。本文针对音素和声韵基元,设计了各自的问题集。

以我们提出的TriIF基元为例,作为问题的声母基元类有:

响音(Sonorant) {m, n, l}

塞音(Stop) {b, d, g, p, t, k}

唇音(Labial) {b, p, m, f}

塞擦音(Affricate) {z, zh, j, c, ch, q}

……

作为问题的韵母基元类有:

前高(HighFront) {i, u, v}

开口n(Open_n) {an, en}

开口ng(Open_ng) {ang, eng}

……

在每个结点分裂时,适当的问题会被提出,如“左边的基元是响音吗?”或者“右边的基元是唇音吗?”,如果是,则会分配到“Yes”结点,反之被分配到“No”结点。所有针对此基元设计的问题都会在这里被问到,而“最佳”的问题将会被选中,作为此结点对应的问题。所谓“最佳”是指符合分裂准则的那个问题。本文中使用的分裂准则是,选择分裂后似然分增加最大的那个问题。

3.2.决策树的构造

一般地,首先将所有可能共享的状态放入一个状态共享池(Pool of States)中,然后根据一定的分裂准则(Split Criterion)进行逐级分裂,当满足一定的条件时,即满足停止分裂准则(Stopping Criteria)时,分裂过程停止。

本文中使用的决策树是基元相关且状态相关的,即,只有同一个中心基元的同一个状态才被放到同一个共享池中。不同基元,或者同一基元的不同状态不会被共享。

在构造决策树时采用的分裂准则是,选择分裂后似然分增加最大的问题作为本结点绑定的问题。决策树的停止分裂准则采用的是阈值的方法。即当分裂后的结点中训练样本数目少于一定数量时,或者,当本结点分裂后对数似然分数的增加小于一定的阈值时,停止分裂。当所有的结点停止分裂后,决策树生成,此时,所有叶子结点对应的状态参数被重估出来,作为落到本叶子结点的所有状态的共享参数。

b-an+f

an+f

f-an+m

an+m

j-an+z

an+z

s-an+t

an+t

Leaf Node

图1. 决策树结构图

基于决策树的状态共享策略是基于知识和数据驱动方法的结合,它比较有效地解决了训练数据的稀疏问题。

4.模型训练

本文使用隐含马尔可夫模型(HMM, Hidden Markov Model)来描述声学模型。对于音节模型,每个基元使用6个串联的状态来描述,每个状态只能驻留或跳转到相邻的下一个状态。对于音素和声韵基元,使用3个串联的状态来描述。

由于每一次结点分裂都要重新计算参数,所以,如果采用多混合的初始模型,计算量就会大得无法忍受。因此,在利用决策树进行状态共享时,使用的是单混合的初始模型,这样就可以通过参数本身直接重估出新的参数,而不用直接访问原始训练数据。这

样,构造出的状态共享的Triphone 和TriIF 模型是单混合的,即每个共享状态使用单个高斯混合来描述。而单混合的模型描述能力是有限的,因此,可以采用混合分裂的方式来增加混合数目。本文实验中,使用8混合的模型作为最终模型。

5. 实验结果

5.1. 实验条件

本文中使用的数据库是“863数据库”中的男声数据库[12]。数据库中的句子是用略带口音的普通话读出的。数据库中共有1560个不同的句子,被划分为三组,分别称为A ,B 和C 组。库中共有80个人的语音数据。全部语音数据的文本信息以及音节一级的标注信息都是已知的。标注信息的获得是利用手工标注和机器切分相结合的方法得到的。

本文中从数据库中选取70人的数据作为训练集合,剩余10人数据作为训练集合。所以,测试集合中的说话人都不在训练集合中。

实验中使用42维的MFCC (Mel-Frequency Cepstrum Coefficients )作为特征参数,包含能量参数,以及一阶差分和二阶差分参数。

本文使用HTK v2.2工具进行模型训练[13]。测试结果用连续识别的音节正确率(Accuracy%)来进行评价。

5.2. 扩展声韵集合与标准声韵集合

表5: 扩展声韵母模型与标准声韵母模型比较

确率音节正确率((Acc%)

模 型

1混合 2混合 4混合 8混合 音素模型音素模型((Phone ) 29.3037.71 42.94 48.27标准声韵模型声韵模型((IF ) 38.3144.86 50.05 54.79声韵模型扩展声韵模型((XIF ) 43.0250.85 56.12 60.28音节模型音节模型((Syllable )

59.75

64.28

69.18

73.14

从结果中可以看出,扩展的声韵母基元集合性能优于标准的声韵母基元集合以及音素基元集合。同时,音节模型的识别率远高于音素和声韵基元模型,这是因为音节模型的基元数目远远多于前两者,它使用了更多的参数来描述模型,同时,采用音节基元时,音节内部的相关性已经得到了很好的描述,因此,音节模型的识别率较高。

如前所述,扩展的声韵母基元可以具有如下优点:(1)使发音字典变得规整,每个音节由一个声母和一个韵母组成,上下文关系比较简单和确定,使上下文相关基元数目极大地减少了,有利于建立上下文相关模型;(2)由于零声母地引入,减少了连续语音识别中带有零声母音节的插入错误。

5.3. 上下文相关模型性能

表6: 上下文相关模型与音节模型性能比较

确率音节正确率((Acc%)

模 型

1混合 2混合 4混合 8混合 音节模型音节模型((Syllable ) 59.75 64.28 69.18 73.14音素模型音素模型((Triphone ) 67.99 70.01 72.90 75.41声韵模型声韵模型((TriIF )

72.03

75.73

77.97

79.48

表7: 上下文相关模型与音节模型规模比较

模 型

高斯混合数目

音节模型音节模型((Syllable ) 20064 音素模型音素模型((Triphone ) 84608 声韵模型声韵模型((TriIF )

75936

从表6和表7中可以看出,基于决策树的状态共享策略应用于音素、声韵模型都可以取得很好的效果,这两种上下文相关模型的性能都要高于音节模型。对于8混合的模型,其音节误识率分别降低了8.5%和23.6%。相对于音节模型,声韵模型的性能改善尤为突出。从模型规模来看,上下文相关模型的参数数目大约是音节模型的4倍。但如果不使用状态共享策略,参数数目要远远大于此值,几乎不可能给出很好的估计。

6. 总结

本文根据汉语语音的特点,选择音节、音素、声韵母来进行声学模型训练,给出了音素、声韵母(包括扩展的声韵母)基元定义,并针对音素和声韵基元设计了适当的问题集,利用基于决策树的状态共享策略训练上下文相关模型。然后对使用三种基元训练的声学模型的识别性能和规模进行了对比。从中可以得到如下结论:

? 连续语音中协同发音现象十分严重,因此,进行相关性建模是很有必要的。从结果中可以看出,对于音素和声韵模型,进行上下文相关建模后,模型性能有了极大的提高。同时,与音节模型相比,上下文相关的音素、声韵模型的性能有了很大的提高,这与上下文信息的引入直接相关。 ? 实验中采用的基于决策树的状态共享策略充分的利用了汉语语音学知识,并与数据驱动的方式结合,使上下文相关建模取得了很好的性能,且模型规模适当。 ? 上下文相关声韵母基元(TriIF )是几种基元中最佳的选择,与音节模型相比,音节误识率降低了23.6%,而Triphone 模型与音节模型相比,误识率降低为8.5%。这说明,声韵母是适合汉语语音特点的基元。

7.参考文献

[1]郑方,牟晓隆,徐明星,武健,宋战江,“汉语

语音听写机技术的研究与实现”,软件学报,10

(4):436-444,1999

[2]Lee C., Rabiner L., Pieraccini R. and Wilpon J.,

“Acoustic modeling for large vocabulary speech recognition,” Computer, Speech and Language, 4, 127-165, 1990

[3]S.J.Young and P.C.Woodland, “Tree-based state

tying for high accuracy acoustic modeling,” Proc.

Human Language Technology Workshop, pp.307-

312, March 1994.

[4]Bin MA and Qiang HUO. “Benchmark results of

triphone-based acoustic modeling on HKU96 and HKU99 putonghua corpora,” International Symposium on Chinese Spoken Language Processing (ISCSLP’00), pp. 359-362, Oct. 13-15, 2000

[5]Bahl, L. R., de Souza, P.V., Copalakrishnan, P. S.,

Nahamoo, D. and Picheny, M. A., “Decision trees for phonological rules in continuous speech”, in Proc.

Int. Conf. Acoustics, Speech, Signal Processing’91, Toronto, ON, Canada, May 1991, pp.185-188.

[6]Reichl, W. and Chou, W., “Decision trees state tying

based on segmental clustering for acoustic modeling”, in Proc. Int. Conf. Acoustics, Speech, Signal Processing’98, pp.801-804.

[7]Reichl, W. and Chou, W., “Robust decision tree state

tying for continuous speech recognition”, IEEE Trans. Speech and Audio Proc., 8(5): 555-566, 2000.

[8]吴宗济,林茂灿,等,实验语音学概要。北京:

高等教育出版社。1989

[9]曹剑芬,现代语音基础知识。北京:人民教育出

版社。 1990

[10]吴宗济(1997). 试论人-机对话中的汉语语音学.

世界汉语教学, 1997, 42(4): 3-20

[11]罗安源 (2000). 田野语音学. 北京: 中央民族大学出

版社. 2000

[12]Zheng, F., Song, Z.-J., and Xu, M.-X., “EASYTALK:

A large-vocabulary speaker-independent Chinese

dictation machine”, EuroSpeech‘99, Vol.2, pp.819-

822, Budapest, Hungary (1999)

[13]Yong, S., Kershaw, D., Odell, J., Ollason, D.,

Valtchev, V. and Woodland, P., “The HTK Book (for HTK Version 2.2)”, Cambridge University (1999)

语音识别技术综述

语音识别技术综述

语音识别技术综述 电子信息工程2010级1班郭珊珊 【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 【关键词】语音识别;语音识别原理;语音识别发展;产品 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识

别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑 也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑 也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

心理声学原理

心理声学原理 时间:2016年10月22日星期六来源:百度 心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。心理声学模型可以在主观听感劣化不多的条件下,大大降低数字音频信号传输的带宽。它主要基于人的听觉器官的生理结构和感知模式,通过对数字音频信号的相应处理,去除不可闻的信号成分及引入不可闻的畸变,达到普通熵编码无法达到的压缩比率。 由于人耳听觉系统复杂,人类迄今为止对它的机理和听觉特性的某些问题总是还不能从生理解剖角度完全解释清楚。所以,对人耳听觉特性的研究仅限于在心理声学和语言声学内进行。人耳对不同强度和不同频率声音的一定听觉范围称为声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位三个物理是的任何复杂的声音,故又称为声音“三要素”;而对于多种音源场合的人的耳掩蔽效应等特性尤为重要,它是心理声学的基础。 研究声音和它引起的听觉之间关系的一门边缘学科。它既是声学的一个分支,也是心理物理学的一个分支。心理声学本可包括言语和音乐这样一些复合声和它们的知觉。这些可见语言声学、音乐声学等条,本条只限于较基础和简单的心理声学现象,即①刚刚能引起听觉的声音──听阈;②声音的强度、频率、频谱和时长这些参量所决定的声音的主观属性──响度、音调、音色和音长;③某些和复合声音有关的特殊的心理声学效应──余音、掩蔽、非线性、双耳效应。 分类 听阈分强度阈和差阈。声音不够一定强度不能引起听觉。在多次作用中能有50%的次数引起听觉的最小声压级称为强度阈(也称听阈)。听阈有个体差异,因而所谓正常听阈只能是一些听力正常的年轻人的听阈的统计平均值。听阈随频率而变化。500~4000Hz之间阈值最低,在它们之上和之下的高频声和低频声的

matlab语音识别系统(源代码)最新版

matlab语音识别系统(源代码)最新版

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6) 3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12)

一、设计任务及要求 用MATLAB实现简单的语音识别功能; 具体设计要求如下: 用MATLAB实现简单的数字1~9的语音识别功能。 二、语音识别的简单介绍 基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: (1)语音特征提取: (2)声学模型与模式匹配(识别算法) (3)语义理解:计算机对识别结果进行语法、语义分析。 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR), 语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。 语音识别应用的特点 1.语音识别系统必须覆盖的功能包括: (1)语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。 (2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。 (3)语音识别系统必须有足够的精度 (4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理 有以下四种方式可以处理这个问题。 (1)错误弱化法。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。 (2)错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。 (3)确认或多层次判定

(4)拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。 在很多情况下,语音识别技术可以充分发挥出RFID的潜能: 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益 语音识别技术在邮件分拣中的应用 现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件 系统来处理不能上机的邮件,仍需要大量的劳动力。 由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。 以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。 对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。 姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。 邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。 例如,有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

音频编解码原理讲解和分析

音频编码原理讲解和分析 作者:谢湘勇,算法部,xie.chris@https://www.sodocs.net/doc/781483308.html, 2007-10-13 简述 (2) 音频基本知识 (2) 采样(ADC) (3) 心理声学模型原理和分析 (3) 滤波器组和window原理和分析 (6) Window (6) TDAC:时域混叠抵消,time domain aliasing cancellation (7) Long and short window、block switch (7) FFT、MDCT (8) Setero and couple原理和分析 (8) 量化原理和分析 (9) mp3、AAC量化编码的过程 (9) ogg量化编码的过程 (11) AC3量化编码的过程 (11) Huffman编码原理和分析 (12) mp3、ogg、AC3的编码策略 (12) 其他技术原理简介 (13) 比特池技术 (13) TNS (13) SBR (13) 预测模型 (14) 增益控制 (14) OGG编码原理和过程详细分析 (14) Ogg V orbis的引入 (14) Ogg V orbis的编码过程 (14) ogg心理声学模型 (15) ogg量化编码的过程 (16) ogg的huffman编码策略 (17) 主要音频格式编码对比分析 (19) Mp3 (19) Ogg (20) AAC (21) AC3 (22) DRA(A VS内的中国音频标准多声道数字音频编码) (23) BSAC,TwinVQ (24) RA (24) 音频编码格式的对比分析 (25) 主要格式对比表格如下 (26) 语音编码算法简介 (26) 后处理技术原理和简介 (28) EQ (28)

语音识别系统调研报告

语音识别系统调研报告 姓名:罗小嘉学号:2801305018 1、摘要:本文简要的介绍了语音识别系统的原理,发展和在各个方面的应用前景。 2、关键词:语音识别;应用 3、引言:语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展. 4、正文:语音识别系统要求能够实现实时语音识别。该语音识别系统的关键技术主要是语言实时识别技术、语音端点检测与声韵分割。如图: 对于语音端点检测与声韵分割的问题,从背景噪声中找出语音的开始和终止,这在语音处理中是很基本的问题,因为准确的端点检测,不仅可以提高识别精度,还可以避免计算噪声,减少计算量. 大多数语音处理系统采用过零率和能量两参数作端点检测. 但过零率受噪声影响较大,采用多门限过零率作语音起点检测,将能量信息直接反应在门限中,同时将分析窗长取小,使起点检测比较准确,效果较好. 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

基于深度学习的语音识别——文献阅读笔记

语音识别 1 《基于深度学习的语音识别应用研究》 语音识别主要作用就是把一段语音信号转换成相对应的文本信息,系统主要由声学特征提取、语言模型、声学模型和解码器等组成。训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语音提取特征,经过声学模型表示,通过维特比解码得出识别结果。 特征 系统主要由声学特征提取、语言模型、声学模型和解码器等组成。 音识别中的特征包括:线性预测参数(LinearPredictionCoefficients,LPC)、倒谱系数(Cepstral Coefficients, CEP)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和感知线性预测系数(Perceptual Linear Prediction, PLP)等。 声学模型 声学基元选择 词(Word)、音节(Syllable)、声韵母(Initial/Final) 以及音素(Phone) HMM声学建模 隐马尔科夫模型 声学模型训练准则 最大似然准则 语言模型 统计语言模型,通过概率来表示词序列在语言环境中出现的可能性,并不是基于语法规则的简单判断。 解码器 通过在一个由语言模型、发声词典、声学模型构成的网络空间中 搜索得分较高的状态序列,其中这里的网络空间有动态网络和静态网络,得分主要由声学模型得分和语言模型得分共同决定。 语音识别的深度学习 CNN 将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度,这两维的物理意义完全不同!.

输入层、卷积核、特征图(feature map)都是一维的。 用Kaldi中特征提取工具以帧长25ms、巾贞移10ms,提取原始数据生成39维MFCC特征(12维滤波器输出值加上1维对数能量,以及其一阶差分和二阶差分)。分布满足a, =0及德尔塔=1,这么做可以直接避免训练样本分布的重新估计。 总结 通过深度神经网络提取语音特征的方法、深度神经网络提取声韵母属性的方法和深度学习搭建声学模型的方法的语音识别系统与MFCC特征下GMM-HMM 搭建的系统就词识别率的结果比较可以看出,深度学习网络替换GMM模型做状态输出的系统识别错误率最低,深度神经网络提取声韵母属性的方法的效果次之,深度神经网络提取语音特征效果比深度神经网络提取声韵母属性效果差,但是比MFCC的系统好。 2 卷积神经网络在语音识别中的应用 将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度。 DNN上实验证明,多帧串联的长时特征对模型性能的提高很重要。当前帧的前后几帧串联起来构成长时特征。 频域维度上,一般采用梅尔域的滤波带系数( filterbank) 作为参数( 如图% 中选择+ 个滤波频带) 在送入B++ 训练前,将多帧串联构成长时 特征!所有特征都进行了逐句的均值方差规整! 英文标准连续语音识别库TIMIT 主流的语音识别系统基本上都是以隐马尔科夫模型为基础所建立的 倒谱均值方差归一化、声道长度归一化以及RASTA滤波 用深度学习方法提取语音高层特征通常可以采用MFCC、PLP以及filter-bank 等参数作为输入。

心理声学(Psychoacoustic Facts and Models )第一章

心理声学:事实和模型 第一章 刺激和过程 在这一章中,简要回顾了声音的光谱特性和时间之间一些基本的相关性。对扬声器和耳机将电信号转换成声音进行了阐述。此外,还提到一些心理物理学方法和程序。最后,对刺激和一般听觉感受之间的关系和心理声学中的原始数据的处理进行了讨论。 1.1声音的时间和频谱特性 在心理声学经常使用的声音的一些时间和频谱特性如图1.1。声音很容易通过声压随时间的变化P (t )进行描述。和大气压力的大小相比,声源所造成的声压的时空变化是非常小的。声压的单位是帕斯卡(Pa )。在心理声学中,经常涉及声压值10-5帕(绝对阈值)到102帕(痛阈)。为了解决涉及范围很大的量值的处理,通常使用声压级L ,声压和声压级有关方程 20log( )p L dB p = (1.1) 式中,基准声压020p Pa μ=。 除了声压和声压级,声强I 和声强级在心理声学中也很重要。在平面行波,声压级及声强级相关方程如下: 00 20log()10log()p I L dB p I == (1.2) 式中,基准声级-122010 W/m I =。 特别是在处理噪声时,与直接使用声强相比,使用声强密度更方便。例如,虽然定义不是很确切,但“1 Hz 带宽的声音强度”也可用来表达“噪声功率密度”。对声强密度取对数即为声强密度级,通常缩短密度级l 。对于密度级与频率无关的白噪声,L 和L 相关方程如下: [10log(/)]L l f Hz dB =+? (1.3) 其中,f ?表示赫兹(Hz )衡量问题的声音带宽。

图1.1 心理声学常用刺激的时间功能和相关的频谱在图1.1中,图“1-KHz tone”显示了连续正弦振荡的声压p的时间函数,和1ms时间内的最大值,对应频谱只用一个中心频率1 kHz时的谱线。 “beats”图是最容易解释的谱域,显示了两个振幅相同的纯音的组合。相应的时间功能清楚地显示一个包络的强烈变化。 “AM tone”图,描绘了一个正弦调幅中心频率为2 kHz的音调的时间功能和频谱。时间函数显示随调制频率变化的包络的正弦振荡。相应的频谱说明,一个调幅音调需要三条线来描述。水平的差异,ΔL,一方面在2kHz之间的中线,要么较低或其他上侧线,都涉及到调制,M的程度,由方程 (1.4) L m dB 20log(/2)] 6ms期间的包络波动表明,对应的调制频率为167赫兹,在谱域中,上部和下部线路与中心线之间的频率差,称为载波。 “音频脉冲”图显示纯音的时间函数和频谱,即固定间隔矩形门。音频率是2KHz,选通间隔为6 ms。在谱域,线之间的间距对应的选通频率为167Hz。 “直流脉冲”图显示了类似的情况。只是在这种情况下,是一个直流电压,而不是一个周期的纯音门控。直流脉冲的持续时间是1ms,间隔为8ms。相应的频谱显示,8毫秒的倒数分离线,即125 Hz 。在频率对应于1/1ms,2/1ms,3/1ms等时,谱线的幅度显示不同的最小值。 最后一个例子是产生离散或谱线的“调频”。描述了一个频率为2 kHz音调在1~3 kHz 频率范围内,调制频率为200 Hz的正弦调频。相关频谱的振幅关于2 kHz对称,并遵循其包络的一个贝塞尔函数。如果调制指数(即频率偏差和调制频率之间的比率)小到使大多数 贝塞尔频谱线消失,那么由此得到的频谱类似于具有一条中心线和两侧线的调幅音调的频

汉语连续语音识别中声学模型

第六届全国人机语音通讯学术会议,267-271页,2001年11月20-22日,深圳 汉语连续语音识别中声学模型基元比较汉语连续语音识别中声学模型基元比较:: 音节音节、、音素音素、、声韵母 李净,徐明星,张继勇,郑方,吴文虎,方棣棠 语音技术中心,智能技术与系统国家重点实验室, 清华大学计算机科学与技术系, 北京, 100084 [lijing, xumx, zjy, fzheng, wuwh]@https://www.sodocs.net/doc/781483308.html,, fangdt@https://www.sodocs.net/doc/781483308.html, https://www.sodocs.net/doc/781483308.html, 摘要 本文研究的是汉语连续语音识别中声学模型基元的选 择问题。根据汉语语音的特点,本文分别采用音节、 音素和声韵母等三种语音识别基元进行声学建模。为 了描述连续语音中的协同发音现象,本文针对音素和 声韵基元,设计了相应的问题集,利用基于决策树的 状态共享策略建立了上下文相关音素模型 (Triphone )和上下文相关声韵模型(TriIF ),并对 几种声学基元进行了对比。实验结果表明,对于上下 文无关模型,音素和声韵模型都要劣于音节模型,而 对于上下文相关模型,Triphone 和TriIF 模型与音节 模型相比,识别性能有了很大提高,其音节误识率分 别降低了8.5%和23.6%。 1. 引言 声学建模是连续语音识别中声学层面处理的关键步骤。声学模型用来描述识别基元对应的特征矢量序列的产生过程。通过声学建模,可以估计待识别特征矢量序列所对应的语音识别基元,从而完成特征矢量序列到语音识别基元的识别转换。 基元的选择是声学建模中一个基本而重要的问题。在汉语连续语音识别中,可以选择的基元包括:词(Word )、音节(Syllable )、半音节(Semi-Syllable )、声韵母(Initial/Final )、音素(Phone )等。识别基元的选择一般是基于语音学知识的,但是,基元也可以通过数据驱动的方式来产生,使用这种方式确定的基元可能在语音学上没有什么明确的意义,但也可以达到很好的性能。 对于词,在小词表语音识别系统中,或者命令与控制(Command & Control )系统中,使用词作为识别基元是适当的。但是,在连续语音识别中将词作为识别基元是不合适的。首先,在连续语音识别系统中,词条的数目比较多,一般都要使用几千或者几万 条词条,所以声学模型的规模必然很大。这不但会增 加存储的开销,还会极大地增加搜索的复杂度。其 次,当词表以外的词条,即OOV (Out Of Vocabulary )问题出现时,声学模型处理起来比较困 难。第三,要对这么多基元进行训练,必然需要一个 很大的数据库,并且要尽量覆盖词表中的词条,这一 点是很难达到的。所以,在汉语连续语音识别系统 中,采用类似于词这样较长的语音段作为识别基元是 不合适的。 对于音节,在汉语中,无调音节约有400个,如果考虑音调,有1300多个有调音节[1]。在进行上下文无关的声学建模时,使用有调或者无调音节是可以的,而且还可以取得相当好的性能,因为音节作为识别基元时,它很好地刻划了音节内部的变化。但是,在连续语音识别中,音节间的协同发音现象是比较严重的,因此,必须采用适当的方式来描述这种现象。一般地,上下文相关信息应在声学建模中加以考虑,这样,识别基元就会变成上下文相关的基元。如果采用音节作为识别基元,当考虑上下文信息时,基元数目会变得非常庞大,这将会使声学模型的规模变得无法接受。同时,由于基元数目过大,也会引起训练数据稀疏的问题,从而难以对模型参数给出较为准确的估计。所以,在进行上下文相关建模时,不适宜采用 音节模型。 音素在汉语中有三十多个(本文中定义的音素数目为35个)。音素基元在英语连续语音识别系统中得到了广泛的应用,并取得了很好的识别性能[2][3]。由此可见,音素也是一个很好的选择。但音 素并没有反映出汉语语音的特点,而且,相对于声韵母,音素显得更加不稳定,这一方面给手工标注带来了困难,同时,也给声学描述带来困难。 对于半音节和声韵母,它们在形式和数量上十分接近。半音节就是将音节分为两部分,而声韵母的划分更依赖于汉语语音学的知识。可以说,声韵母基元是适合汉语特点的一种识别基元,使用这种基元,还可以有很多语言学知识可以利用,从而进一步提高声 学模型的性能。声韵母作为识别基元具有以下优点: ? 汉语中的汉字是单音节的,而汉语中的音节是声韵结构的,这种独特而规则的结构,使对音节、以及词条的表示变得比较规则和统一; ? 使用声韵母作为识别基元,上下文相关信息也变得比较确定。比如,与声母相接的只能是韵母或者静音,而与韵母相接的也只能是声母或静音,而且,韵母左边相接的声母只能是与其搭配起来能够成汉语音节的那些声母。所以,上下文相关的声韵母基元的数目并不是基元数目的立方,而是远远小于这个数值的。

浅论自动语音识别结构与原理

浅论自动语音识别结构与原理 发表时间:2018-12-05T13:30:59.817Z 来源:《科技新时代》2018年10期作者:黄淑彤[导读] 自动语音识别(Automatic Speech Recognition)简称ASR是目前属于AI领域的一项十分重要的技术,伴随着人工智能的高速发展,智能化生活走向主流,ASR技术已经走进了人们的生活中的方方面面。学校:当阳市第一高级中学,学校地址:湖北省宜昌市,学校邮编:444100 摘要;自动语音识别(Automatic Speech Recognition)简 称ASR是目前属于AI领域的一项十分重要的技术,伴随着人工智能的高速发展,智能化生活走向主流,ASR技术已经走进了人们的生活中的方方面面。先简要介绍了语音识别的发展、语音信号的接收,再重点阐述了ASR运行过程中相关的原理及方法和与ASR技术的基本算法使用语音信号的处理涉及的三大算法即朴素模式算法,KMP算法,及HMM算法。 关键词; 自动语音识别;人工智能;语音识别涉及的三大算法 1.语音识别系统的发展历程 语音即声音,自动语音识别(ASR) 简言之就是:听到人类发出的语音指令后,计算机通过将声音中包含的信息转化为的一系列计算机可理解的参数,之后再进行处理,做出人类所需要的反应的一种智能技术[1]。为了在与计算机交互时同与人类说话一样容易,科学家做出了巨大努力。其中历史性的两大里程碑事件一是戴维斯实验室研发的英文十英文字符语音参数实验系统,二是毕业于卡内基梅隆大学的李开复开拓出了容纳更广的词汇量的语音识别系统sphinx,还为此前种种难题,如不间断语音非特定人语音、声线不平、语音信息模糊等问题提供了解决方案,从此成为如今大多数进入语音识别领域的工作者的必备知识[1]。 追根朔源语音识别是从贝尔发明电话时期初露锋芒的,伴随着1876年电话的发明,语音识别的一系列有关声音的参数如声带振动的频率,振幅,声速等相关影响因素都被予以高度关注及探索,从此为语音研究铺下了良好的基础[1]。紧随其后的是诞生于1946年的计算机,它开创了电子信息新时代,随着计算机发展愈加完善,该技术成为语音识别进步的巨大动力[1]。语音识别的原理是离不开模型的,譬如声学模型,语言模型,概率模型等都是语音识别时的工具,这就如同一串拼音对应多个词组一样,我们要在一段语音中找到概率最大的音频,则需要一些算法来得到转化后的可懂序列[3]。这个过程涉及到一些数据信息的获取和处理,具体技术即下文介绍的语音信号接收操作及三大算法。 2.语音信号接收 作为技术突破的第一步,语音信号的接收是最先发展和突破的,在历史上探索历程也是最漫长的,整个操作过程有重要的两步,即静音切除和分帧操作。 2.1 静音切除 静音切除是与语音有关的必要部分比如声码器,声码器在军事领域运用最为广泛,其工作原理是通过声音震动带来的频率变化转化为数字信号,其中只保留必要的关键词,剪切掉的多余部分作为推测信号会在释放时被重新填补,再通过力传感器产生同按键生压一样的效果,解放双手就能做到发出准确的指令[2][5]。但如果一段音频的时间过长,那么收集其声音参数形成的数据就会很大,这时切除无用信号就显得尤为重要,静音切除用到的基本技术是VAD(virtural address descripter),它的工作原理是在虚拟的语音环境中识别出指令者声音信息流的停顿空白期,这一段并不含信息源,完全可省略,同开头结尾部分文件头一起还原语音时,与有用信息一起通过语音分组待还原[3][5]。 2.2分帧操作 分帧操作首先是为了分辨频率信号的分布情况,其次是对语音信号进行隔离,一段一段的语音分成组累叠储存比一整段数据携带更为方便,也能够使运作效率提高。而分帧操作时使用的必须是一段平稳清晰的声音帧,为了分清各个频率情况的分布,这里要用到“傅里叶变换”,结合窗函数,收集一系列经过函数加工后得到的声音参数比如声速、声波频率、振幅、声波的波峰波谷等音频信号,利用移动窗函数给各帧函数确定下坐标参数。这里的傅里叶变换是指将满足一定条件的某个函数表示成三角函数,正弦余弦函数等一系列普通可懂函数,之后在同一些积分线性函数相组合结合。从而提高分辨率,两边的幅度下降之后,确定下了秒数之后就可以开始变换了[3]。 3.语音识别的核心三大算法 模式匹配即匹配字符串(一串字符序列),在主串(比对串)中对子串(待匹配串)进行定位,其实串在计算机是凭借各字符在字符表中的前后位置顺序进行比较的,常用字符也是指对应字符在对应字符集中的序号,正如语音识别中模式匹配需要找到对应格式,字串也要找到指定位置,再填补,增删之后才可使用[6]。模式匹配是使串的长度和对应位置相对应,从而达到使语音匹配正确的目的。 3.1 朴素模式算法(BF算法) 朴素模式算法即依次全部历遍完串直到全部匹配成功,如下表按照上下箭头进行匹配,如果匹配不成功,则接着下一个进行匹配直到待匹配串完全一一对应才算完全成功。其实在BF算法中称P为模式字符串,而T为目标字符串,字符的对应成功就代表着P在T中完全一一对应了[6]。譬如给出T串:A B H O M E W O R K E P P串:H O M E W O R K,在匹配时可以明显发现前面的元素字串无法一一对应时箭头显现红色,后面无对应的箭头显示白色,在这样的情况下,根据朴素模式算法知道,接下来要向后移动模式串P,而T串不动再进行一次匹配,如下图,第二个图对应第二次匹配的过程依然没完成百分之百的对应,接着重复前面的操作得到的第三个图就是对应成功了,且成功对应的串都是用绿色箭头表示的,接着可以直接输出串的位置,序号等参数,从而定下匹配的串,这样朴素模式算法就算完成了。

相关主题