搜档网
当前位置:搜档网 › 说话人识别算法研究

说话人识别算法研究

说话人识别算法研究
说话人识别算法研究

说话人识别算法研究

傅庚申 殷福亮

(大连理工大学 电信学院 信号与信息处理专业 116023)

摘要: 说话人识别是根据从说话人所发出的语音中提取出信息判断说话人身份的过程。HMM能有效的用概率统计的方法描述时变语音信号。本文用HMM实现了一个说话人识别的系统。并在详细分析系统各部分关键算法的基础上,比较了MFCC和LPCC两种特征参数的性能。

关键词:说话人识别;Mel频标倒谱参数;矢量量化;隐含马尔可夫模型

分类号:TN912.34

Study on Speaker Identification Algorithm

Fu Gengshen, Yin Fuliang

School of Electronic and Information Engineering, Dalian University of Technology, Dalian,

P.R.China, 116023

Abstract: Speaker identification can be made according to the information distilled from the voice of the speaker. Using probability method, HMM can effectively describe the real-time audio signal. This paper realizes a HMM-based speaker identification system. Based on the analysis of the key algorithms of the system in detail, the performances of MFCC and LPCC are compared.

Key words: Speaker identification, Mel Frequency Cepstrum Coefficient (MFCC), Vector Quantization, Hidden Markov Model (HMM)

1 引言

说话人识别可以看作是语音识别的一种。它和语音识别一样,都是通过对所收到的语音信号进行处理,然后据此做出判断,不同之处在于说话人识别希望从语音中提取不同说话人的特征,加以利用;而语音识别则力图减少同一语音对于不同说话人的差别。说话人识别是通过对说话人语音信号的分析和特征提取,确定说话人是谁。随着技术的不断发展,说话人识别的应用领域正在不断扩大,主要方面有:说话人核对、声控电子密码锁、司法取证、医学应用等。

说话人识别的方法和技术在近十几年来得到了迅速的发展。说话人模型从单模板模型到多模板模型,从模板模型到VQ模型、高斯混合模型、隐含马尔科夫模型,到人工神经网络模型,识别环境从无噪声环境下少数说话人的识别到复杂噪声环境下大量说话人的识别,所采用的识别技术从仅涉及动态规划到涉及统计信号处理、最优估计理论、矢量量化与编码、模糊系统理论与方法、灰色系统分析、人工神经网络等多学科和领域的发展。

本文用HMM实现了一个说话人识别的系统。并在此基础上比较了MFCC和LPCC 两种特征参数的性能。

2 说话人识别系统的基本结构

说话人识别系统的基本结构如图1所示:

若要实现说话人的识别,需要解决一下几个基本问题[3]:

说话人特征的提取;

说话人模型的建立和模型参数的训练;

测试音与说话人模型的匹配距离计算;

其中最关键的两个问题是提取什么样的特征和建立什么样的模型。对这两个问题的算法解答就组成了一个说话人识别算法,而一个说话人识别系统的效果也是由这两部分决定的。 3 说话人识别算法

3.1 预处理

在对语音信号进行处理之前,首先要对语音信号进行一定的预处理,其中主要包括语音信号的预加重、分帧和加窗[1]。

(1)预加重

预加重是一种重要的前处理技术。语音信号频谱的高频部分的能量比较小,易受干扰。为此,在分析语音信号之前,需对其高频部分进行增强。另外,为了对数字化的语音信号进行平滑处理以及减少在以后的信号处理中受到有限精度的影响,也必须首先对语音信号进行预加重。方法是使用一阶固定数字传输函数:

1()10.95*H Z Z ?=? (1)

因此,预加重的输出结果n s %是由它的输入值n s 经下列方程式计算得出的:

10.95*n n n s s s ?=?% (2)

(2)分帧

取连续的N 个语音信号作为一帧。对于8KHz 的采样频率,由于为了后续求取语音特征中进行FFT 变换方便,在本系统中采用32ms 为一帧,即N 为256。为了保证特征矢量系数的平滑,帧与帧之间有部分样本重叠使用,本系统中两帧之间重叠12帧。所以设M 为两个帧的取样间隔,即2128M N ==。

(3)加窗

在语音帧的起始点,线性预测方法以零值预测非零值或以非零值预测零值时,一般

都会使预测误差增大。若对数据先作适当的加窗处理,可以减少预测误差。一般采用加窗算法包括海明窗(Hamming Window)和汉宁窗(Hanning Window)。本系统采用的是海明窗,海明窗(Hamming Window)定义为:

()0.540.46*cos(2**1)),01w n n N n N π=??≤≤? (3) 加窗后的样本数据变为:

()*()w S x n w n = (4)

3.2 特征提取

每一说话人的语音信号即表征语音内容又表征说话人身份,在文本无关方式下,我们希望这些特征主要说话人特征而不是语音文本特征。从语音信号中提取的说话人特征参数应满足以下准则:

对局外变量(例如,说话人的健康状况、情绪、系统的传输特性)不敏感。

能长期地保持稳定。

易于对之进行测量和存储。

可经常表现出来。

把语音信号每一段看成是准周期脉冲或随机噪声激励一个线性时不变系统的输出,解卷积的方法将激励信号和系统冲激响应分开,可以得到倒谱系数。它可以将信息量较小的峰值信息和更为重要的声道形状信息相分离,倒谱系数反映了声道的共振性能,它是目前普遍采用的说话人特征参数。 3.2.1 线性预测倒谱参数LPCC

线性预测倒谱参数(Linear Prediction Cepstrum Coefficient ,LPCC) [10]是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数的一种倒谱特征。

计算出LPC 系数i a 以后,将i a 通过下面的递推公式转换到倒谱域即得到所需的

LPCC 系数n C :

1111(),1(),n n n i i n i n n n i i i C i n a C a n p C i n a C n p ??=??=?=+≤≤????=>??

∑∑ (5) 3.2.2 Mel 频标倒谱系数MFCC

Mel 频标倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC) [10]。该特征是在Mel 标度频率域中提取出来的倒谱参数,先将频谱转化为基于Mel 频标的非线性频谱,然后转换到倒谱域上。

MFCC 的提出基于下列两点事实:

首先,人类对单个音调的感知强度近似的正比于该音调频率的对数。Mel 频率表达了这种语音频率与“感知频率”的对应关系。在Mel 频率域内,人对音调的感知度为线性关系,举例来说,如果两段语音的Mel 频率相差两倍,则人耳听起来两者的音调也相差两倍,

Mel 频率与线性频率的转换公式为:

102595log (1/700)Mel f f =+ (6)

其次,人类并不能有效的分辨所有的频率分量。只有当两个频率分量相差一定带宽时,人类才能将其区分。这个带宽被称为临界带宽(Critical Bandwidth ),其计算公式如下:

20.692575[1 1.4(/1000)]c c BW f =++ (7)

其中c f 为中心频率。

根据上述两点便可以构造临界频带滤波器组(Critical Band Filter Bank )来模仿人耳的感知特性。这组滤波器的中心频率在Mel 频率域内呈线性分布,其带宽在临界带宽之内。表1是一组典型的临界频带滤波器参数。 表1 临界频带滤波器组参数表

序号 中心频率

(Hz ) 带宽(Hz ) 序号 中心频率

(Hz ) 带宽(Hz )

1 100 100 11 1149 160

2 200 100 12 1320 184

3 300 100 13 1516 211

4 400 100 14 1741 242

5 500 100 15 2000 278

6 600 100 16 229

7 320 7 700 100 17 2639 367

8 800 100 18 3031 422

9 900 100 19 3482 484 10 1000 100 20 4000 556 MFCC 参数的求取过程就是将原始信号通过一组临界频带滤波器组,然后转换到倒谱域的过程,其流程为:

1.对输入语音帧加汉明窗后作快速傅利叶变换[9],将时域信号转化为频域信号。 2.把上步变换得到的频谱系数用序列三角滤波器进行滤波处理,得到一组系数

1220,,Y Y Y L 。滤波器组中每个三角滤波器的跨度在Mel 标度上是想等的。所有

滤波器总体上覆盖从0Hz 到采样频率的二分之一。三角滤波器的中心频率和带宽由表3-1给出。计算三角滤波器输出1220,,Y Y Y L 的公式如下:

1111111i

i i i F F i i i k k k F k F i i i i k F F k Y X X F F F F +??+==+?+??=+??∑∑,1,2,,20i =L (8)

其中k X 为频谱上第k 个频谱点的能量, i Y 为第i 个滤波器的输出, i F 为第i 个滤波器的中心频率。

3.用离散余弦变换[9]将滤波器输出变换到倒谱域:

20

11log()cos[()]224k j j C Y k j π==?∑,1,2,k p =L (9) 其中p 为MFCC 参数的阶数。1,2,...,{}k k p C =即为所求的MFCC 参数。

MFCC 所用的距离量度也为欧氏距离。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC 参数具有识别性能和抗噪能力强等特点。

3.3 矢量量化

矢量量化(Vector Quantization ,VQ )[4] [7]是一种极其重要的信号压缩方法,广泛应用于图像信号压缩、语音信号压缩等领域。在语音信号数字处理的许多重要研究课题中,特别是低速语音编译码器和语音识别的研究中,VQ 都起着非常重要的作用。在说话人识别中,VQ 也是一种重要的信号压缩和识别方法。而VQ 码本设计直接关系到VQ 的量化质量。

目前生成码本最基本也是最常用的算法是LBG 算法,LBG 聚类算法是一个迭代的过程,总的思路是首先求出M 个矢量的中心矢量CEN 及C 个质心,然后按最临近原则将M 个矢量按质心分类,并求出总体失真,在归类的基础上求出新的质心,在进行归类,并求出新的总体失真。如此循环,当前后两次迭代使得总体失真的相对误差小于迭代精度时,迭代结束。下面给出LBG 算法[4]的框架:

1) 存储形成VQ 码本所需全部输入矢量X 的集合S 。

2) 设置迭代算法的最大迭代次数L 。

3) 设置畸变改进阈值δ。

4) 设置M 个初始码字01Y ,02Y ,…,0M Y 。

5) 设置畸变初值(0)D =∞。

6) 设置迭代初值m=1。

7) 根据最近邻准则将S 分成M 个子集()()()12,,,m m m M S S S L 。即当()m l X S ∈时,下式应

该成立:

(1)(1)(,)(,),,m m l i d X Y d X Y i i l ??≤ ? ≠ (10) 其中(,)d X Y 表示X 和Y 的欧氏距离。这种划分方法称为最近邻划分。

8) 计算总畸变()m D :

()()(1)1(,)m l M

m m l l X S D d X Y ?=∈=∑∑ (11)

9) 计算畸变改进量()m D ?的相对值()m δ:

()(1)()()()()

||m m m m m m D D D D D δ???== (12) 10) 计算新码字()()()12,,,m m m M Y Y Y L :

()()1m i m i X S i Y X N ∈=∑ (13)

11) ()||m m L δδ<>?

若回答为是,输入()()()12,,,m m m M Y Y Y L ,并且输出总畸变()m D ;

若回答为否,1m m =+,转入7执行。

上述LBG 算法中,有两个阈值δ和L 。δ需要设得远小于1,以保证最后码本是足

够稳定的,但在实际运算中,在码本的收敛过程中有可能发生振荡而使得相对畸变改进量达不到阈值,因此必须设另一个阈值L ,以保证算法在有限步内结束。

3.4 隐含马尔可夫模型(Hidden Markov Model ,HMM )

隐含马尔可夫模型(Hidden Markov Model ,HMM )[2] [5]是目前在说话人识别领域使用最广泛的语言模型,它的出现使说话人识别技术发生了巨大的飞跃,解决了说话人识别的许多疑难问题。用HMM 描述语音信号的产生是语音信号数字处理技术的一项重大进展。

设有一个称为“马尔可夫模型机”的离散时域有限态自动机,在每一个离散时刻,它只能处于有限多个状态中的一个。假设允许出现的状态有l θ,1,2,,l L =L ,自动机在时刻t 所处的状态用t q 表示。若对于任意时刻t ,自动机的状态t q 为l θ中的哪一个的概率只取决于前一时刻所处的状态1t q ?,而与更前的任何时刻所处的状态无关,则由此自动机产生的状态序列12,,,T q q q L 称为马尔可夫链,其任意时刻为何状态的概率完全取决于初始状态概率矢量π和状态转移概率矩阵A 。其中π是一个L 维行矢量,即12[,,,]L ππππ=L ,其中每个分量l π表示1q 等于l θ的概率;A 是一个L L ×维方阵,其中每一个分量ij a 表示已知目前状态是i θ的条件下下一时刻状态是j θ的概率。

若此系统在任何时刻t 所处的状态t q 隐藏在系统内部,不为外界所见,外界只能得到此时系统提供的一个随机矢量O ,O 称为观测矢量或者输出矢量。t O 取何值的概率与时间t 无关,只和系统的状态有关。此时此系统被称为隐含马尔可夫模型系统或HMM 系统[8]。t O 的概率密度函数或者概率的集合B 称为输出概率矩阵。显而易见,一个HMM 系统的特性完全由它的三个特征参数矢量或矩阵,,A B λπ=完全确定。下面介绍HMM 中最核心的算法Viterbi 算法[2]:

设对已知,,A B π,在t 时刻限定状态t i q θ=,而其他时刻的状态可以任选,那么可以找到一条由1到t 的状态路径,使得出现此路径且系统输出12,,n O O O L 的概率达到最大值。此概率最大值记为()t i δ,并且用下式表示:

12112112,,,()max {[,,,,,,,,|,,]},1~t t t t i t q q q i P q q q q O O O A B i L δθπ??===L L L (14) ()t i δ可以用下式地推得到:

11()[max{()}](),1~t t ij j t i j i a b O j L δδ++= = (15) 此外,假设

1()argmax(())t t ji j i j a ψδ?= (16)

表示t i q θ=时一条最优状态路径中1t q ?所取状态的标号。根据这些关系,我们可以导出

下列递推算法:

1) 令11()(),1~i i i b O i L δπ==。

2) 对于1,,1t T =?L ,由()t i δ求1()t j δ+并且求出1()t j ψ+:

11(){max[()]}(),1~t t ij j t i j i a b O j L δδ++== (17) 1()arg max(()),1~t t ij i j i a j L ψδ+== (18)

3) 对于1~j L =求出()T j δ的最大值,

这便是给定,,A B π输出观测矢量O 的最大概率,即:

*[,,]max{()}T j

P A B j πδ= (19)

相应的j 值即整条最佳状态路径的最后一个状态,记其标号T l $,表示为:

?argmax{()}T T j l j δ= (20)

4) 由t T =进行逆推运算,即可求出最佳路径各时刻对应的状态标号:

11(),(1),(2),,2,1t t t l l t T T ψ++= =??$$L (21)

这就是最基本的Viterbi 算法流程。Viterbi 算法在每一步的计算中都以最大值代替包括最大值在内的所有可能值之和,因此是一个近似算法,但实验证明此算法的近似程度甚佳[6]。

应当指出,Viterbi 算法的一个副产品()*[,,]max{()}max ,T j Q P A B j P Q O πδ==和前向-后向算法计算出的()(),Q P O P Q O λ=∑之间的关系为对语音处理应用而言,

(),P Q O λ动态范围很大,或者说不同的Q 使(),P Q O λ的值差别很大,而

()max ,Q P Q O λ事实上是(),Q P Q O λ∑中举足轻重的唯一成分,因此,常常等价地使用()max ,Q P Q O λ和(),Q

P Q O λ∑,那么,Viterbi 算法也能用来计算()P O λ。 3.5 说话人识别系统训练基本流程

说话人识别系统的训练过程如图2所示。先对语音信号进行预处理,再提取其MFCC 特征,将所有测试者的特征存储起来,作为码本训练的样本,用训练出了码本对求出的MFCC 特征进行矢量量化,最后用量化后的MFCC 特征对HMM 参数进行训练,得出能充分代表测试者的HMM 模型。

3.6 说话人识别系统识别基本流程

说话人识别系统的识别过程如图3所示。同训练时一样,先对语音信号进行预处理,再提取其MFCC 特征,然后将其矢量量化,最后用量化后的MFCC 特征作为观察矢量,

将其代入代表测试者的HMM 模型中,

用Viterbi 算法计算此段语音是这个测试者发出的概率,得出最终的判决结果。

图2 基于HMM 的说话人识别系统训练流程图

图3 基于HMM 的说话人识别系统识别流程图

4 仿真实验与结论

本文的数据库是在普通实验室环境下,用一个高质量microphone 录制而成,

采集了26个说话人(15男11女)的语音数据,采样率为8kHz ,量化精度为16bit 。每个人的语音大约都有6分钟长的连续语音,分为训练和测试两部分。

对于说话人辨认系统,识别的结果只可能是正确和错误两种,并且正确识别的概率和错误识别的概率之和为1。因此,可以用正确识别的概率(简称识别率)作为衡量一个说话人辨认系统的性能指标。

100%=×正确识别人数识别率总人数

(22) 实验目的:测试LPCC 和MFCC 两种参数对说话人识别系统性能的影响

实验方法:取训练语音库中测试者每人一定长度语音,分别提取其LPCC 和MFCC

特征参数,作为码本训练的样本,然后分别用训练好的码本量化求出的

语音特征矢量,训练出HMM 的参数,,A B π,然后分别用测试语音进行

说话人识别的测试,统计其整体识别率。

实验结果:实验结果如表2所示。 表2 不同的参数对说话人识别系统性能影响测试结果

训练语音长度(秒) 测试数 正确数 识别率 误识率

MFCC 389 384 98.71% 1.29% LPCC 389 356 91.52% 8.48% 由实验结果可以得出如下结论:

采用HMM 进行说话人识别,系统性能基本可以达到要求。对部分算法增加复杂度,还可以进一步提高系统的识别率。

对于LPCC 参数而言,MFCC 参数的识别率要高。但是由于求取MFCC 参数的时候计算量比较大,所以使用MFCC 参数的系统复杂度要大于使用LPCC 参数的系统。

5 总结

说话人识别技术在国际上是一个研究的热点,在评价一个说话人识别系统的识别性能时,不应只以识别率作为标准,而还应将可识别人数、训练时间、识别响应时间、噪声处理能力等多项因素综合考虑进行评价,这导致了说话人识别的难于实现。尽管说话人识别研究已经取得了很多的进展,但总的来说,离实用阶段还有一段距离。

综合本文的思路,作者认为对说话人识别系统性能的改善,更加实用化。还可以集中在以下几个方向进一步研究:

寻找新的语音特征参数:如何有效地从语音信号中提取出说话人的个性特征,

比如如何从语音中将说话人信息与话音信息分离,仍然是一个尚未很好解决的问题,有效的语音特征参数是说话人识别系统性能提高的关键。

寻找有效的噪声消除算法:说话人识别研究要获得实用,一定要解决各种背景噪声对系统的影响。现在的噪声消除算法还不能非常有效地消除噪声,因此,

寻找有效的噪声消除算法是说话人识别系统实用化的关键之一。

参考文献

[1] 杨行峻,迟惠生等. 语音信号数字处理. 第一版. 北京:电子工业出版社,1995. 330-355

[2] 谢锦辉. 隐含马尔可夫模型及其在语音处理中的应用. 武汉:华中理工大学出版社. 1995.

[3] Jayant M.Naik. Speaker Verification:A Tutorial. IEEE Communications Magazine, 1990,January: pp.

42-48

[4] 胡光锐. 语音处理与识别. 上海:上海科学技术文献出版社. 1994.

[5] Zhiyuan He, Qixiu Hu. A Speaker identification system with verification method based on speaker

relative threshold and HMM, ICSP’02 Proceedings, 2002: pp. 488-491

[6] Michael Inman, Douglas Danforth, Speaker identification using hidden Markov models, Proceedings of

ICSP’98, 1998: pp. 609-612

[7] K.Yu, J.Mason, J.Oglesby. Speaker recognition using hidden Markov models dynamic time warping and

vertor quantisation: IEE Proc-Vis. Image Signal Process, V ol.142,No.5,October 1995: pp. 313-318 [8] Shahin, Ismail, Botros, Nazeih. Text-Dependent Speaker Identification Using Hidden Markov Model

with Stress Compensation Technique: IEEE 1998: pp. 61-64

[9] 殷福亮,宋爱军. 数字信号处理C语言程序集. 沈阳:辽宁科学技术出版社,1997

[10]甄斌,吴玺宏,刘志敏,迟惠生. 语音识别和说话人识别中各倒谱分量的相对重要性. 北京大学

学报(自然科学版),第37卷,第3期,2001年5月

语音信号的提取与识别技术——说话人识别系统的研究

毕业设计说明书 语音信号的提取与识别技术 ——说话人识别系统的研究 作者:学号: 学院(系): 专业: 指导教师: 评阅人: 20**年6月

中北大学 毕业设计(论文)任务书 学院、系: 专业: 学生姓名:学号: 设计(论文)题目:语音信号的提取与识别技术 起迄日期: 20**年2月15日~20**年6月21日 设计(论文)地点: 指导教师: 系主任: 发任务书日期:20**年2月15日

毕业设计(论文)任务书 1.毕业设计(论文)课题的任务和要求: 1.了解声音信号的特征参数,及现阶段研究处理方法。以现阶段信号处理领域比较活 跃的语音信号为具体研究对象,进行相关知识的了解与学习。 2.学会在语音信号处理中使用MATLAB软件工具。 3.针对基本的个别个体的特定声音进行与信识别研究。 4.根据研究情况利用MATLAB语言进行相关算法的实现。 2.毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等): 1.查阅相关资料,利用已学的相关知识进行消化和理解。 2.了解现阶段的语音处理情况,分析研究相关的产品。 3.研究学习基本的识别处理方法。 4.学习相关信号处理软件。。 5.对软件的学习达到能对基本的算法进行软件的处理。 6.完成毕业设计论文。

毕业设计(论文)任务书 3.对毕业设计(论文)课题成果的要求〔包括毕业设计(论文)、图纸、实物样品等): 1、毕业论文一份; 2、英文文献1份,相应的中文译文1份。 4.毕业设计(论文)课题工作进度计划: 起迄日期工作内容 2006年 2月15日~ 3月31日4月 1日~ 5月31日6月 1日~ 6月20日6月20日~ 6月21日系统学习,查阅资料,作开题报告;英文资料翻译; 撰写毕业论文; 论文答辩。 学生所在系审查意见: 系主任: 年月日

说话人识别算法研究

说话人识别算法研究 傅庚申 殷福亮 (大连理工大学 电信学院 信号与信息处理专业 116023) 摘要: 说话人识别是根据从说话人所发出的语音中提取出信息判断说话人身份的过程。HMM能有效的用概率统计的方法描述时变语音信号。本文用HMM实现了一个说话人识别的系统。并在详细分析系统各部分关键算法的基础上,比较了MFCC和LPCC两种特征参数的性能。 关键词:说话人识别;Mel频标倒谱参数;矢量量化;隐含马尔可夫模型 分类号:TN912.34 Study on Speaker Identification Algorithm Fu Gengshen, Yin Fuliang School of Electronic and Information Engineering, Dalian University of Technology, Dalian, P.R.China, 116023 Abstract: Speaker identification can be made according to the information distilled from the voice of the speaker. Using probability method, HMM can effectively describe the real-time audio signal. This paper realizes a HMM-based speaker identification system. Based on the analysis of the key algorithms of the system in detail, the performances of MFCC and LPCC are compared. Key words: Speaker identification, Mel Frequency Cepstrum Coefficient (MFCC), Vector Quantization, Hidden Markov Model (HMM) 1 引言 说话人识别可以看作是语音识别的一种。它和语音识别一样,都是通过对所收到的语音信号进行处理,然后据此做出判断,不同之处在于说话人识别希望从语音中提取不同说话人的特征,加以利用;而语音识别则力图减少同一语音对于不同说话人的差别。说话人识别是通过对说话人语音信号的分析和特征提取,确定说话人是谁。随着技术的不断发展,说话人识别的应用领域正在不断扩大,主要方面有:说话人核对、声控电子密码锁、司法取证、医学应用等。 说话人识别的方法和技术在近十几年来得到了迅速的发展。说话人模型从单模板模型到多模板模型,从模板模型到VQ模型、高斯混合模型、隐含马尔科夫模型,到人工神经网络模型,识别环境从无噪声环境下少数说话人的识别到复杂噪声环境下大量说话人的识别,所采用的识别技术从仅涉及动态规划到涉及统计信号处理、最优估计理论、矢量量化与编码、模糊系统理论与方法、灰色系统分析、人工神经网络等多学科和领域的发展。 本文用HMM实现了一个说话人识别的系统。并在此基础上比较了MFCC和LPCC 两种特征参数的性能。

说话人识别研究综述_王书诏

图1说话人识别系统框图 识别 训练 输入语音 预处理 特性 提取 相似性准则 判决 模型存储 模型产生 文章编号:1002-8684(2007)01-0051-05 说话人识别研究综述 王书诏,邱天爽 (大连理工大学电子与信息工程学院,辽宁大连116023) 【摘 要】说话人识别是语音信号处理中的重要组成部分,是当前的研究热点之一。详细介绍了说话人识别的基本 原理,从特征提取、模型训练和分类等几个方面就近年的主要研究情况进行综述和评价,并在此基础上探讨了研究难点和发展前景。 【关键词】说话人识别;特征提取;模型训练;分类【中图分类号】TN912 【文献标识码】A SurveyonSpeakerRecognitionWANGShu-zhao,QIUTian-shuang (DepartmentofElectronicEngineering,DalianUniversityofTechnology,DalianLiaoning116023,China)【Abstract】Speakerrecognitionisanimportantpartofthespeechsignalprocessing.Itisoneofthecurrentresearch hotspots.Theprinciplesofthespeakerrecognitionareintroducedindetail.Thelatestdevelopmentintheareasofthefeatureextraction,modeltrainingandclassificationisreviewedandthetrendandrubsarealsodiscussed. 【Keywords】speakerrecognition;featureextraction;modeltraining;classification ?综述? 1 引言 说话人识别作为生物认证技术的一种,是根据语 音波形中反映说话人生理和行为特征的语音参数自动鉴别说话人身份的一项技术[1]。因此,需要从各个说话人的发音中找出说话人之间的个性差异,这涉及到说话人发音器官、发音通道和发音习惯之间等不同级别上的个性差异。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。 说话人识别根据实现的任务不同,可分为说话人辨认(speakeridentification)和说话人确认(speaker verification)两种类型[2];说话人识别根据系统对待识别语音内容的不同,又可分为与文本有关(text-dependent)和与文本无关(text-independent)两种方式[3] 。 2说话人识别的基本理论与前期处理 2.1 语音产生模型[4] 语音信号可以看成是激励信号UG(n)经过一个线性系统H(z)而产生的输出[4] 。其中,声道模型H(z)为 离散时域的声道传输函数,通常可用全极点函数来近似。不同的说话人其声道形状是不同的,因此具有不同的声道模型。H(z)表示为 H(z)=1A(z) = 11-p i=1!aiz -i (1) 其中p为全极点滤波器的阶数;ai(i=1,2,…,p)为滤波器的系数。p值越大,则模型的传输函数和实际声道传输函数的吻合程度就越高,当然p值也不能取得太大,一般情况下,p的取值范围为8~12[4]。 2.2说话人识别基本原理 图1为说话人识别系统框图。和语音识别系统一 样,建立和应用这一系统可分为两个阶段:训练阶段和识别阶段。在训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集;而在识别阶段,待识别说话人语音中导出的参量要与训练中的参考参量或模板加以比较,并且根据一定的相似性准则形成判断。 2.3预处理[5] 通常,输入的语音信号都要进行预处理,预处理过 程的好坏在一定程度上也影响系统的识别效果。一般 Voicetechnolog Y 语音技术

基于说话人声音识别的技术研究语音识别技术

基于说话人声音识别的技术研究语音识别技术基于声音的说话人身份识别技术研究 通信1203班 成员:艾洲、刘安邦、汪中日 余文正、王玉贵、宁文静 xx-12-28 项目背景 伴随着全球化、网络化、信息化、数字化时代的到来,我们对高可靠性的身份验证技术与身份识别技术的需求也日益增长。 在生物学和信息科学高度发展的今天,根据人体自身的生 理特征(指纹、虹膜…)和行为特征(声音…)来识别身份的生物技术认证作为一种便捷、先进的信息安全技术已经在现实生活中得到广泛的应用,它是集光学、传感技术、红外扫描和计算机技术于一身的

第三代身份验证技术,能满足现代社会对于身份鉴别的准确性、安全性与实用性的更高要求。 而语音是人的自然属性之一,由于说话人发声器官的生理 差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号来识别说话人成为可能。 设计总体框架 1.语音库的建立 2.声音样本采集 2.1 特征参数提取 2.2 识别模型建立 3.语音识别测试 梅尔倒谱系数(MFCC)简述

在话者识别方面,最常用到的语音特征就是梅尔倒谱系数(MFCC)。因为,根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度,得出从200Hz到5000Hz的语音信号对语音的清晰度影响最大。 所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的“线性预测系数LPC”相比更好,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。 MFCC倒谱特征提取流图 1. 预加重 预加重处理其实是将语音信号通过一个高通滤波器:式中μ的值介于0.9-1.0之间,我们通常取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用

虹膜识别技术综述

虹膜识别技术综述 ——生物认证技术 姓名: 班级: 专业: 教师:

【引言】 生物认证技术又称为生物识别技术,是通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定。这是我们已经熟知的概念,然而,生物认证技术是一个很广泛的学术研究范围,我们需要深入了解的则是其下的各个研究分支,而其中的虹膜识别技术则是非常重要的一个分支,同时这种技术也是应用非常广泛的生物认证与识别技术之一 【知识简介】 首先,我们来了解一下虹膜—— 人眼睛的外观图由巩膜、虹膜、瞳孔三部分构成。虹膜位于巩膜和瞳孔之间,包含了最丰富的纹理信息,占据65%。外观上看,由许多腺窝、皱褶、色素斑等构成,是人体中最独特的结构之一。虹膜的形成由遗传基因决定,人体基因表达决定了虹膜的形态、生理、颜色和总的外观。另一方面,要改变虹膜外观,需要非常精细的外科手术,而且要冒着视力损伤的危险。虹膜的高度独特性、稳定性及不可更改的特点,是虹膜可用作身份鉴别的物质基础。 在包括指纹在内的所有生物识别技术中,虹膜识别技术可以说是当前应用最为方便和精确的一种技术。它被广泛认为是二十一世纪最具有发展前途的生物认证技术,未来的安防、国防、电子商务等多种领域的应用,也必然的会以虹膜识别技术为重点。这种趋势已经在全球各地的各种应用中逐渐开始显现出来,市场应用前景非常广阔。

【个人理解】 虹膜其实和我们人体的指纹一样,具有高度的“特异性”,这是作为“认”的根本与基础,同时它也同样具有良好的“稳定性”,这就意味着它具有防伪性,它奠定了“证”的可靠性! 许多资料包括刚才的简介中都提到这样类似的话“要改变虹膜外观,需要非常精细的外科手术,而且要冒着视力损伤的危险”。在我看来,其实这就是一种高度可信的“防伪性能”,因为特别是在一般商业用途中,伪造(或者称之为“修改”)虹膜的代价可能远远高于骗取识别系统的信任所带来的利益,换句话说这就是“得不偿失”! 虽然我们可能对指纹识别更为熟悉一些,但是实质上虹膜识别的精确性丝毫不逊于指纹识别!——根据各种资料的介绍,我得到了这样一种认知:“虹膜结构是非常复杂而精细的”,对于在鲜活人体上的虹膜与虹膜之间而言,它们的区别可以说是非常大的(超过了指纹间特征点的区别程度),就像一个完全独立于其他任何事物的精细工艺品,要“确认”它非常容易,同时要发现“雷同”的却基本是不可能的!在我看来,这就是虹膜可以作为真正识别身份的生物特征并且这种识别技术应用越来越广泛,实用性与适用性越来越强的原因!

语音信号的提取与识别技术(说话人识别系统)的研究

语音信号的提取与识别技术 摘要 语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文通过分析语音特征参数的特点和说话人识别的基本方法,提出了以美尔倒谱差分和线性预测差分为特征,通过动态时间归整算法来识别的文本相关说话人辨认系统。 关键词: 语音识别, 说话人识别, 线性预测倒谱,美尔倒谱系数,动态时间归整

The pick-up of speech signal and speech recognition Abstract Speech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of V oice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCC's difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper. Key words:V oice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping

虹膜识别算法研究及实现

摘要 在当今信息化时代,如何精确鉴定个人的真实身份、保护信息安全,已成为一个急待解决的关键性问题。传统的身份认证极易伪造和丢失,难以满足急速发展的社会需求,目前最为便捷、安全的解决方案就是生物体识别技术。它不仅简洁快速,而且安全、可靠、准确。同时更易于配合网络和安全、监控、管理系统整合,实现自动便捷管理。虹膜识别是一种基于人体生理特征的生物体特征识别技术,与人体纹理、掌纹、脸相、音频、步频、血液等特征识别相比,具有唯一、高稳定、识别率高、检测方便等优点,因此虹膜识别技术己成为当前身份鉴别研究的热门领域。 本论文详细阐述了虹膜识别技术的研究背景和现状、虹膜生理结构和虹膜识别系统的构成。较深入的研究了虹膜识别算法,实现了三个步骤,即虹膜数字图像预处理、特征码提取和模式匹配。本论文的研究工作主要集中在对虹膜数字图像预处理的归一化和模式匹配两方面的研究。 在虹膜数字图像预处理的归一化过程中,采用一种基于Dangman橡皮片的辐射线段的归一化方式,将环型区域改变成为矩形区域。这种方式采用若千条线段表示两个非同心圆周之间的区域,只要设定这些线段上的点数就可以起到很好的归一化成果,并且仅出一种分析模型。更加定位搜索的效率,节约时间,简化定位的过程。采取Hough变换算子对虹膜进行精定位。 在特征提取及编码匹配过程中,本论文首先将归一化后的2D虹膜数字图像转换为1D灰度信号,从而减小了运算量;然后运用1D Gabor小波对构造的1D 灰度信号进行分析,选取一定尺度上的小波变换结果进行量化,生成二进制的特征向量,从而提高了虹膜识别技术的效率;最后通过改进的Hamming距离移位匹配,实现了识别中的旋转不可逆性。 本论文通过使用中科院自动化研究所的虹膜数据库(CASIA-IRISV1)的虹膜数字图像进行实验。经过一定工作量的科学实验对这一算法进行了验证。实验结果:本论文选取的CASIA-a中心波长为20像素效果最好。最好的模板大小为

虹膜识别技术

指纹识别、人脸识别技术正在趋于成熟,也正在被应用到更丰富的场景,逐渐改变我们生活的方方面面。但在大多使用场景中,很多人发现原来指纹可以复制,双胞胎、整容等因素又让人脸识别傻傻分不清楚……某种程度上对指纹识别、人脸识别的安全性提出了挑战。技术永远存在bug,那么要实现精准识别,还能通过什么样的不可替代的生物体特征?答案可能是虹膜识别。 人类一直有一个关于“精准身份识别”的梦想,人脸、指纹、虹膜这些不可替代的生物体特征陆续被技术所用。指纹识别、人脸识别的准确度受到质疑的时候,不得不提到虹膜识别。虹膜识别,可能是一项更具有安全性的技术。 一、什么是虹膜识别: 简单来说,人的眼睛结构由巩膜、虹膜、瞳孔三部分构成。虹膜是位于黑色瞳孔和白色巩膜之间的圆环状部分,是眼球中瞳孔周围的深色部分,其包含有很多相互交错的斑点、细丝、冠状、条纹等等细节特征。而平时我们常见的近视眼、白内障、红眼病对虹膜也完全不会造成破坏,这些特征决定了虹膜特征以及身份识别的唯一性。 虹膜识别技术则是人体生物识别技术的一种,被广泛认为是21世纪最具有发展前途的生物认证技术,可用于未来的安防、国防、电子商务等多种领域的应用。虹膜识别算法程序的开发者是一位名叫 John Daugman 的美国数学家,他被业内称作是虹膜识别算法理论的开创者。 二、虹膜识别技术受追捧的另一个因素是:安全 因为人眼的虹膜在出生 6 个月后即发育成熟,之后就会保持终生不变,更不会出现如指纹磨损、面容变化导致设备拒识本人的情况,而且眼球剥离人体后虹膜会随瞳孔放大而失去活性,很难被伪造。相较于指纹0.8%、人脸识别2%左右的误识率,虹膜识别误识率可低至百万分之一。 在国内,早期虹膜识别技术被广泛用于煤矿行业的考勤。西安中媒科技、北京中科虹霸是当时最大的两家虹膜识别设备提供商,前者的技术来源于西安交大,后者主要成员来自于中科院自动化所。它们都具备技术研发的基础,同时也做代理国外产品的生意,比如中媒科技就是LG在中国的最大代理商,后来中媒科技由于内部出现问题分支出两家公司:西安中虹智能科技、西安凯虹电子科技,同样是做代理。 三、国内的虹膜识别技术主要来源于中科院自动化所和上海交通大学图像所 它们分别衍生了前文所提到的中科虹霸和聚虹光电两家公司,这两家公司在虹膜识别技术的研究时间都超过10年,业内人士称之为:北中科,南聚虹。 国内虹膜技术的研发方向是针对东亚人的黑色虹膜识别,黑色虹膜由于纹理少,表面色素多,光线原因导致不稳定性又强等因素,是被虹膜识别理论创立者 Daugman 公认的最难识别的,这也决定着黑色虹膜在可见光下是不能看到的,必须用到红外光识别。中国恰恰又是黑色虹膜最大样本市场。所以,这两家目前在煤矿、电力、安全等领域都有落地的案例。 四、虽然目前来看,国内虹膜行业呈现的状态很混乱,行业不规范,但虹膜识别的应用场景却非常广阔,尤其是与医疗、社保、信用、金融相关涉及信息安全、身份验证的领域

浅谈说话人识别技术及应用分析

浅谈说话人识别技术及应用分析 引言:随着科学技术的快速发展,生物特征识别技术得到了越来越多的研究和应用, 说话人识别是语音识别的一种。它主要分为说话人辨认和说话人确认两个方面:前者是判断待识别语音是多个参考说话人中哪一个人所说,用于辨认说话者的身份,是一个多元判决问题;后者是说话人先声明身份(如输入用户号) ,然后由系统判定待识别语音是否与其参考声音相符,用于对特定人进行身份验证,是一个二元判决问题。说话人识别技术的发展始于60 年代,随着信息社会化发展,说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,其应用领域不断扩大:在司法领域中,可以帮助对嫌疑人的查证;在保安领域中,可以用于机密场所的进入控制、合法使用通信线路、机要设备的身份核查及电子银行转帐业务的安全检查等;在医学领域,如使识别系统仅响应患者的命令,则可实现对假肢的控制;在玩具、家用电器等领域也有广泛的应用前景。针对以上领域中的许多商用系统已经投入使用。 关键字:生物特征识别、系统判定、控制、应用前景 一、说话人识别技术基础 随着全球信息化的快速发展,电子商务等信息技术得到了广泛的应用,人们发现,传统的使用密码来认证用户的方法变的越来越脆弱。在这种背景下,解决用户高安全性和长效稳定性的生物认证技术逐渐得到人们的青睐。在众多的生物认证技术中,说话人识别技术以其信号采集简单、系统设备成本低等优点得到了快速发展,展现了广阔的应用前景。 说话人识别技术包括说话人辨认技术和说话人确认技术,他们在本质上是一致的,唯一不同的是说话人辨认技术是从多个说话人语音中辨认出某个人的那一段语音信息,而说话人确认技术是确定某段语音信息是不是某人所说。两者是一对多和一对一的关系。每个人的发音因为受到声道和发音特点等影响,总是存在一些代表自己特征的元素,说话人识别技术就是通过采集、提取这些表征说话人固有特征的参数来达到识别的目的。语音识别技术的应用有着非常多的优点,同时目前的研究也存在一些还没有突破的难点,但我相信,不久的将来,说话人识别技术一定会在我国的信息安全方面起到无以替换的重要作用。 1 特征提取 特征提取就是提取语音信号中表征说话人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。提取的说话人的特征参数应满足相应的条件:对局外变量不敏感,如说话人的情绪的影响;能够长期地保持稳定;可以经常表现出来;易于对之进行测量,与其它特征不相关。 语音信号是一种携带着各种信息的非平稳的时变信号。在说话人识别系统中,首先我们需要对语音信号进行分析,提取特征参数。然后对语音信号进行预处理。语音信号经过预处理过后,会产生很大的数据量。在提取说话人特征时,就需要通过去除原来语音中的冗余信息来减小数据量。说话人识别技术中的测试音和训练语音都只有在经过特征提取后才能与说话人模型进行比较、匹配和模型训练。因此,特征提取是说话人识别技术中的关键步骤,其

说话人识别技术研究

说话人识别技术研究 马 建 郭建东 (电子科技大学计算机学院四川成都610054) 【摘 要】 说话人识别,是指通过说话人的语音来自动识别说话人的身份,它主要包括特征提取和模式匹配两个部分。随着计算机技术和人工智能的发展,通过说话人识别实现特定场合的实体鉴别已经具有非常重要的研究和应用价值。 【关键词】 说话人识别;说话人辨认;说话人确认 人类语言的产生是人体语言中枢与发音器官之间一个复 杂的生理物理过程,人在讲话时使用的发声器官———舌、牙齿、 喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何 两个人的声纹图谱都有差异。每个人的语音声学特征既有相 对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可 能来自生理、病理、心理、模拟、伪装,也可能与环境干扰有关。 尽管如此,由于每个人的发音器官都不尽相同,因此在一般情 况下,说话人的鉴定仍能区别不同的人或法定是同一人的声 音,从而可以进行个人身份识别。 说话人识别(Speaker Recognition),根据应用环境不同可 分为两类,即说话人辨认(Speaker Identification)和说话人确认 (Speaker Verification)。说话人辨认是通过一段语音确认身份 的过程,在说话人辨认中,我们需要将待识声音和已知人群中 的每一个人的特征逐一进行比较,从中辨别出说话人,系统的决策选择数目为说话者的数目。因此,说话人辨认系统的性能是随着说话人集合的规模增大而降低。说话人确认是证实某一说话人是否是他所声称的身份的过程。在说话人确认中,只需将待识声音与注册说话人自己的模型比较,以确定是否是注册者本人的声音,系统只需给出正确或错误两种选择。因此,说话人确认系统的性能是与说话人集合的规模无关。两类系统的不同之处如表1所示。 表1 说话人识别的两类系统比较[1] 说话人辨认说话人确认 说话人未必合作说话人主动合作 存在发音伪装问题存在发音模仿问题 必须与N个已知模式进行比较只需与一个已知模式进行比较系统响应可以缓慢系统响应必须快速 词汇表可以各个不相同词汇表限于标准试验短语 通道特性可能不良或不同通道特性往往可以调整 信噪比可能太低信噪比通常可调 与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。 说话人识别可能被用三种方式进行:文本相关的( Text-Dependent)、文本提示的(Text-Prompted)和文本无关的(Text -Independent)三种。与文本有关的说话人识别系统要求用户按照规定的内容发音,每个人的声音模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个声音是现场声音还是录音。但文本提示的说话人识别系统可以有效地避免这种情况发生。具体实现时,可采用随机或其他方法来生成提示文本,如随机的数字串或句子,以使假冒者无法事先录音。 在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(clo se-set)辨认。闭集的说话人辨认是指系统具有这样的先验知识;测试的说话人肯定是训练集中出现过的说话人。而开集的说话人辨认则指所测试的说话人还有可能是训练集中没有出现过的人。开集的说话人辨认和说话人确认通常都通过一个阈值来判断测试的说话人是不是在训练集中。 说话人识别系统主要包括两个部分:特征提取和模式匹配(如图1所示)。特征提取的任务是选取惟一表现说话人身份的有效且稳定可靠的特征;模式匹配的任务是对训练和识别时的特征模式进行相似性的匹配。 图1 说话人识别系统的典型结构 特征提取 说话人的模型不是由语音信号得到的,而是通过从语音信号中提取特征而得到的,是说话人语音特征的模型。测试音只有在经过特征提取后才与说话人的模型进行比较和匹配,训练语音也只有进行语音特征提取后才能得到其特征的模型,因此特征提取是说话人识别系统中的重要组成部分。 与计算机处理相对应,可以将人类的声音特征划分为以下三个层次:声道声学层次,在分析短时信号的基础上,抽取对通道、时间等因素不敏感的特征;韵律特征层次,抽取独立于声学、声道等因素的超音段特征,如方言、韵律、语速等;语言结构层次,通过对语音信号的识别,获取更加全面和结构化的语义信息。说话人识别系统主要针对较低层次的声道声学特征进行建模,主要有基音(Pitch)周期、共振峰(Format)、基于线性预测(Linear Predictive)的倒谱(Cep strum)、基于付氏变换的FFT 倒谱、基于语音信号的滤波器组分析的Mel倒谱和语音谱的过渡信息(Transitional In formation)等。 总之,较好的特征提取,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能等等。 模式匹配 测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认时,只与所声称的说话人的模型进行匹配和匹配距离计算;说话人辨认时,与所有人的模型进行匹配和匹配距离计算。 目前针对各种特征而提出的模式匹配方法的研究越来越深入,大致可归为三类:基于非参数模型的方法、基于参数模型 8福 建 电 脑 2005年第1期

虹膜识别DAUGMAN核心算法介绍

虹膜识别DAUGMAN核心算法介绍 眼睛的虹膜是由相当复杂的纤维组织构成,其细部结构在出生之前就以随机组合的方式决定下来了,虹膜识别技术将虹膜的可视特征转换成一个512个字节的Iris Code(虹膜代码),这个代码模板被存储下来以便后期识别所用,512个字节,对生物识别模板来说是一个十分紧凑的模板,但它对从虹膜获得的信息量来说是十分巨大的。 一、采集: 从直径11mm的虹膜上,Dr.Daugman的算法用3.4个字节的数据来代表每平方毫米的虹膜信息,这样,一个虹膜约有266个量化特征点,而一般的生物识别技术只有13个到60个特征点。266个量化特征点的虹膜识别算法在众多虹膜识别技术资料中都有讲述,在算法和人类眼部特征允许的情况下,Dr.Daugman指出,通过他的算法可获得173个二进制自由度的独立特征点。在生物识别技术中,这个特征点的数量是相当大的。 二、算法: 第一步是通过一个距离眼睛3英寸的精密相机来确定虹膜的位置。当相机对准眼睛后,算法逐渐将焦距对准虹膜左右两侧,确定虹膜的外沿,这种水平方法受到了眼睑的阻碍。算法同时将焦距对准虹膜的内沿(即瞳孔)并排除眼液和细微组织的影响。 单色相机利用可见光和红外线,红外线定位在700-900mm的范围内(这是IR技术的低限,美国眼科学会在他们对macular cysts研究中使用同样的范围。)在虹膜的上方,算法通过二维Gabor子波的方法来细分和重组虹膜图象,第一个细分的部分被称为phasor,要理解二维gabor子波的原理需要懂得很深的数学知识。 三、精确度: 由于虹膜代码(Iris Code)是通过复杂的运算获得的,并能提供数量较多的特征点,所以虹膜识别技术是精确度最高的生物识别技术,具体描述如下:·两个不同的虹膜信息有75%匹配信息的可能性是1:106 ·等错率:1:1200000 ·两个不同的虹膜产生相同Iris Code(虹膜代码)的可能性是1:1052 四、录入和识别: 整个过程其实是十分简单的,虹膜的定位可在1秒钟之内完成,产生虹膜代码(Iris Code)的时间也仅需1秒的时间,数据库的检索时间也相当快,就是在有成千上万个虹膜信息数据库中进行检索,所用时间也不多,有人可能会对如此快的速度产生质疑,其实虹膜识别技术的算法还受到了现有技术的制约。我们知道,处理器速度是大规模检索的一个瓶颈,另外网络和硬件设备的性能也制约着检索的速度。当然,由于虹膜识别技术采用的是单色成像技术,因此一些图像很难把它从瞳孔的图像中分离出来。但是虹膜识别技术所采用的算法允许图像质量在某种程度上有所变化。相同的虹膜所产生的Iris Code(虹膜代码)也有25%

说话人识别中语音特征参数研究

说话人识别是指通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的说话者集合中,以及进一步确认说话人是谁。说话人识别和语音识别的区别在于,它不注重包含在语音信号中的文字符号以及语义内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息,以达到识别说话人的目的。 说话人识别技术的关键问题之一就是提取反映说话人个性的语音特征参数。语音参数的选择是整个说话人识别系统的基础,对正确识别率有着直接的影响,目前常用的特征参数包括线性预测倒谱 系数(LPCC )、美尔倒谱系数(MFCC )等。LPCC 参数和MFCC 参数分别根据人的发声原理和听觉感知原理,从人的声音提取出能量分布谱,从中获得声纹的独特特征,这两种参数在实用中得到了较好的效果〔1〕。 我们对几种重要的语音参数进行了研究,并在此基础上提出一种PAC-MFCC-Sigmoid 特征。通过实验,证明这种特征识别方法能使说话人识别系统的误识率有明显的降低。 1 说话人识别语音特征参数及提取 1.1 LPCC LPCC 参数是基于语音的线性预测分析 说话人识别中语音特征参数研究 杨建华,于小宁 (西安工业大学电子信息工程学院,西安710032) [摘要]在说话人识别系统中,特征参数的选择和提取对系统的识别性能有关键性的影响。研究了两种重要的语音特征参数,线性预测倒谱系数和美尔倒谱系数,在此基础上提出改进的相位自相关系数,通过实验对几种参数进行了对比,结果表明改进的相位自相关系数能够使系统的误识率明显下降。[关键词]说话人识别;特征参数;线性预测倒谱系数;美尔倒谱系数 [中图分类号]TN912.3[文献标识码]A [文章编号]1672-2345 (2009)08-0032-04[收稿日期]2008-11-26 [作者简介]杨建华(1980-),男,陕西西安人,助教,主要从事信息与信息处理研究. Study of the Acoustic Features in Speaker Recognition Yang Jianhua,Yu Xiaonin (College of Electronic Information Engineering,Xi'an University of Technology,Xi'an 710032,China ) 〔Abstract 〕In speaker recognition system,the feature selection and extraction is one of the most important problems in speaker recognition.The two main acoustic feature parameters LPCC and MFCC were studied.The ameliorative phase auto correlation coefficient was proposed based on them.The experimentation results showed that the ameliorative phase auto correlation coefficient could obviously improve the recognition accuracy of the speaker recognition system. 〔Key words 〕speaker recognition;feature parameter;linear prediction cepstrum coefficients (LPCC );mel -frequency cepstrum coefficients (MFCC ) 大理学院学报 J OURNAL OF DALI UNIVERSITY 第8卷第8期2009年8月Vol.8 No.8Aug.2009 32

相关主题