搜档网
当前位置:搜档网 › 语音识别流程分析

语音识别流程分析

语音识别流程分析
语音识别流程分析

语音识别流程分析

摘要:语言识别是将人类自然语言的声音信号,通过计算机自动转换为与之相对应的文字符号的一门新兴技术,属于模式识别的一个分支。语音识别的结果可以通过屏幕显示出文字符号,也可以存储在文本文件中。语音识别技术能够把语音信息直接转换成文字信息,对于中文信息处理来说,无疑是一个最理想、最自然的汉字输入方式。本文首先分析了语音识别的原理,在此基础上进行语音识别的流程分析,主要内容有:提取语音、端点检测、特征值提取、训练数据、语音识别。选用HMM隐马尔科夫模型,基于VC2005编译环境下的的多线程编程,实现算法的并行运算,提升了语音识别的效率。实验结果表明:所设计的程序满足语音识别系统的基本要求。

关键词:语音识别预处理Mel倒谱系数HMM隐马尔科夫模式OpenMP编程

前言

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话

音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

语音识别技术,也被称为自动语音Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列[1]。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

一、语音识别的原理

语音识别的基本原理是一个模式匹配的过程:先建立一个标准的模式存放在计算机中,然后把输入的语言信息进行分析处理,采集相关的信息建立目标语音模式,再将目标语音模式与机内标准模式相匹配,找到最近的模式最为识别结果输出。语音识别本质上是一种模式

识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果[2]。

使用C语言编程,实现基于马尔科夫模型的数据特征提取,在此基础上编程实现特定语音实例的语音识别;将语音识别功能编写成可供其他模块调用的函数,为进一步实现语音识别系统提供基础;并且从中培养、提高查阅文献和综合运用知识的编程开发能力。图1是基于模式匹配原理的自动语音识别系统原理框图。

图1 语音识别系统原理框图

(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。

(2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。

(3)训练阶段:用户输入若干次训练语音,经过预处理和特征提

取后得到特征矢量参数,建立或修改训练语音的参考模式库。

(4)识别阶段:将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识(如构词规则,语法规则等)得出最终的识别结果。

二、语音识别的流程

(一)样本语音采集

在室内录制标准汉语数字0-9的wav语音做样本语音,录音软件采用MS Visual C++WavRecorder,采样率16KHz,采样位16位,语音数据以wav文件格式存储,其音频格式为Windows PCM。(二)语音信号预处理

1、语音信号数字化

通过采样及量化提取语音信号的数据。其中,数据提取部分,掌握语音文件的存储形式极为重要,有效地提取并清楚各部分数据的含义,对分析数据起到帮助作用,为下一步工作做了良好的起步。2、预加重处理

提升高频部分,使信号频谱变得平坦,以便于进行声道参数分析或频谱分析。预加重语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,即6dB/oct(2倍频)或20dB/dec(10倍频)。求语音信号频谱时,频率越高,相应的成分越小。为此,要在预处理中进行预加重处理(Pre—emphasis)。预加重的目的是使信号的频谱变得平坦,保持从低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重一

般是采用一阶的数字滤波器[3]μ:H(Z)=1-μ-1z ,μ值接近于1,或者采用公式y(n)=x(n)-αx(n-1),其中,x(n)为原始信号序列;y(n)为预加重后序列;α为预加重系数。

3、端点检测及分帧加窗

断点检测主要为实现对数据中有效部分的提取。阈值采用0.3(最大值-最小值),语音信号是一种典型的非平稳信号,处理中一般使用窗函数截取其中一段来进行分析,截取出来的那部分信号被认为是短时平稳的。加窗处理的另一个作用就是消除由无限序列截断导致的Gibbs 效应。常见的窗函数有:

①矩形窗(RectangularWindow)

{1(0

1)0(0)n N ω≤≤-其他

②汉明窗(Hamming Window)

2

0.540.46cos()(01)10(n)n n N N πω-≤≤--???其他

③哈宁窗(Hann Window)

2

0.50.5cos()(01)10(n)n n N N πω-≤≤--???其他

汉明窗和哈宁窗都属于广义升余弦函数,通过分析他们的频率响应幅度特征,可以发现,矩形窗的谱平滑性能好,但是旁瓣太高,容易造成频谱泄露,损失高频成分;哈宁窗衰减太快,低通特性不平滑;而汉明窗由于其平滑的低通特性和最低的旁瓣高度而得到广泛的应用[4]。

(三)Mel 倒谱系数特征表示

提取MFCC 参数、PLCC 参数,即状态转移矩阵A ,混合高斯分布的权矩阵C ,均值矢量μ和协方差矩阵U 这四个参数的训练过程,并进行极大似然值估计[5]。

Hz 频率Mel f 与Mel 频率Mel f 之间的转换关系如公式:

Mel f =1127×ln(1+700Hz f )

Mel 倒谱频率系数(MFCC)是上述Mel 频率概念基础上提出的,其计算机流程如图2所示

MFCC 的Hz —Mel 尺度对应的曲线和滤波器组分布如图3所示。

(四)HMM隐马尔科夫模式匹配

HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型,它是由马尔可夫链演变来的一个双重随机过程[6]。

基于HMM模型的孤立词语音识别系统需解决的以下问题:.(1)如何确定一个最优的状态转移序列,并计算观察序列对HMM模型的输出概率,根据此概率判断语音命令的识别结果[7];

(2)如何调整允参数使得输出概率最大。这是对HMM模型进行参数训练的问题。

在解决上述两个问题的过程中,都需要对输出概率进行计算,因此这是此算法的另外一个关键问题。

(五)OpenMP编程实现多核并行运算

实验平台为SAMSUNG R428系列双核笔记本。采用IntelPM45+ICH9M芯片组,Intel(R) Core(TM)2 Duo CPU,T6600处理器,2.20GHz主频,,高速缓存2MB,前端总线800MHz,内存DDR3,2048M,系统为Microsoft Windows XP Professional ( 5.1,版本2600),编译器为MicrosoftVisual Studio 2010。在此平台上,用OpenMP改进二维离散快速傅里叶变换,实验数据为程序多次运行的平均值。

1、FFT算法编程实现

FFT程序设计分为两个部分:倒序排列和蝶形运算。倒序排列用于时域提取FFT的输入序列,本设计采用按时间抽选(DIT)的基-2蝶形运算,输入导位序,输出自然序。

2、声音识别——提取MFCC特征编程

对每一帧进行离散余弦变换(Discrete Cosine Transform,简称DCT变换)后得到MFCC特征值参数,此算法具有较强的抗干扰能力,将信号的能量集中到少数几个变换系数上,采用量化和熵编码可有效地压缩帧能量数据。

参考文献

[1] 段哲民,范世贵《信号与系统》西安工业大学出版社,1997

[2] 赵力《基于分段模糊类聚算法的VQ-HMM语音识别模型参数估计》电路与系统学报,2005,1(2):8~11

[3] 易可初,田斌,付强《语音信号处理》国防工业出版社,2005.8

[4] 蔡元龙《模式识别》西安电子科技大学出版社,1992.26~28

[5] 余小清,万旺根《基于听觉谱特征的语音识别新方法》中国学术期刊文稿,2005,4(3):374~375

[6] 陈尚勤,罗成烈,杨雪《近代语音识别》电子科技大学出版社,1991

[7]韩纪庆,张磊,郑铁然《语音信号处理》清华大学出版社,2006

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

2016年汽车语音识别系统行业现状及发展趋势分析

中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版) 报告编号:1622577

行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考。 一份有价值的行业研究报告,可以完成对行业系统、完整的调研分析工作,使决策者在阅读完行业研究报告后,能够清楚地了解该行业市场现状和发展前景趋势,确保了决策方向的正确性和科学性。 中国产业调研网https://www.sodocs.net/doc/0b8034182.html,基于多年来对客户需求的深入了解,全面系统地研究了该行业市场现状及发展前景,注重信息的时效性,从而更好地把握市场变化和行业发展趋势。

一、基本信息 报告名称:中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版)报告编号:1622577←咨询时,请说明此编号。 优惠价:¥7020 元可开具增值税专用发票 网上阅读:https://www.sodocs.net/doc/0b8034182.html,/R_JiaoTongYunShu/77/QiCheYuYinShiBieXiTongFaZhanXi anZhuangFenXiQianJingYuCe.html 温馨提示:如需英文、日文等其他语言版本,请与我们联系。 二、内容介绍 《中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版)》在多年汽车语音识别系统行业研究的基础上,结合中国汽车语音识别系统行业市场的发展现状,通过资深研究团队对汽车语音识别系统市场资讯进行整理分析,并依托国家权威数据资源和长期市场监测的数据库,对汽车语音识别系统行业进行了全面、细致的调研分析。 中国产业调研网发布的《中国汽车语音识别系统行业现状调查分析及市场前景预测报告(2016年版)》可以帮助投资者准确把握汽车语音识别系统行业的市场现状,为投资者进行投资作出汽车语音识别系统行业前景预判,挖掘汽车语音识别系统行业投资价值,同时提出汽车语音识别系统行业投资策略、营销策略等方面的建议。 正文目录 第一章汽车语音识别系统产业概述 1.1 汽车语音识别系统定义及产品技术参数 1.2 汽车语音识别系统分类 1.3 汽车语音识别系统应用领域 1.4 汽车语音识别系统产业链结构 1.5 汽车语音识别系统产业概述 1.6 汽车语音识别系统产业政策

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计 系:信息与通信工程 专业:通信工程 班级:081班 设计题目:基于matlab的语音识别系统 学生姓名: 指导教师: 完成日期:2011年12月27日

一.设计任务及要求 1.1设计任务 作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛,有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等,几乎深入到社会的每个行业、每个方面,其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求 要求:使用matlab软件编写语音识别程序 二.算法方案选择 2.1设计方案 语音识别属于模式识别范畴,它与人的认知过程一样,其过程分为训练和识别两个阶段。在训练阶段,语音识别系统对输入的语音信号进行学习。学习结束后,把学习内容组成语音模型库存储起来;在识别阶段,根据当前输入的待识别语音信号,在语音模型库中查找出相应的词义或语义。 语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元,它的基本结构如图1所示。 图1 语音识别系统基本结构图 本次设计主要是基于HMM模型(隐马尔可夫模型)。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别词条的统计模型,然后从待识别语音信号中提取特征,与这些模

型进行匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。并且,HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图 图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征(信号的瞬态特征);另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段,即短时统计特征的动态特性(隐含在观察序列中)。人的言语过程本质上也是一个双重随机过程,语音信号本身是一个可观测的时变列。可见,HMM合理地模仿了这一过程,是一种较为理想的语音信号模型。其初始状态概率向量π,状态转移概率矩阵向量A,以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π,A,B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题: (1)识别问题:在给定的观测序列O和模型λ=(A,B,π)的条件下,如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法,它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定:如何选择一个最佳状态序列Q=q1q2…qT,来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题:如何调整模型参数λ=(A,B,π),使P(O︱λ)最大:这是三个问题中最难的一个,因为没有解析法可用来求解最大似然模型,所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。 第一个问题是评估问题,即已知模型λ=(A,B,π)和一个观测序列O,如何计算由该模型λ产生出该观测序列O的概率,问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。 第二个问题力图揭露模型中隐藏着的部分,即找出“正确的”状态序列,这是一个典型的估计问题。

语音识别技术研究

基于Google技术的语音识别实现 前言 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是,Google 推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术,我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一:使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.sodocs.net/doc/0b8034182.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量:

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

基于matlab的语音识别技术

项目题目:基于Matlab的语音识别 一、引言 语音识别技术是让计算机识别一些语音信号,并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛,包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场,渗透到家电、通信、医疗、消费电子产品等各个领域,让人们的生活更加方便。 语音识别系统的分类有三种依据:词汇量大小,对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。 二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图l所示,主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块,其中后处理模块为可选部分。 三、语音识别设计步骤 3.1语音信号的特征及其端点检测 图2 数字‘7’开始部分波形 图2是数字”7”的波形进行局部放大后的情况,可以看到,在6800之前的部分信号幅度很低,明显属于静音。而在6800以后,信号幅度开始增强,并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰,两个尖峰之间的距离就是所谓的基音周期,实际上也就是说话人的声带振动的周期。 这样可以很直观的用信号的幅度作为特征,区分静音和语音。只要设定一个

门限,当信号的幅度超过该门限的时候,就认为语音开始,当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类 语音识别按说话人的讲话方式可分为3类:(1)即孤立词识别(isolated word recognition),孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等。(3)连续语音识别,连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话。 从识别对象的类型来看,语音识别可以分为特定人语音识别和非特定人语音识别,特定人是指针对一个用户的语音识别,非特定人则可用于不同的用户。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成 语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理,包括预滤波,采样和量化,加窗,端点检测,预加重等。语音信号经处理后,接下来很重要的一环就是特征参数提取。 图3 语音识别系统 在训练阶段,将特征参数进行一定的处理之后,为每个词条得到一个模型,保存为模版库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试模版,与参考模板进行匹配,将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。语音信号是一种典型的时变信号,然而如果把观察时间缩短到十毫秒至几十毫秒,则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟,这就是所谓的声管模型。 全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述,LPC参数是模拟人的发声器官的,是一种基于语音合成的参数模型。 在语音识别中,很少用LPC系数,而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

语音识别研究的背景意义及现状

语音识别研究的背景意义及现状研究的背景及意义 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别 (Speech Recognition) 技术的出现,使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中己经占到越来越大的比例。 音乐就是一种艺术。通常可以解释为一系列对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等,有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术,不论是唱、奏或听,都内涵着关联人们千丝万缕情感的因素。特别对人的心理,会起着不能用言语所能形容的影响作用。 音乐可以通过几种途径来体验,而音乐播放器是现代生活中最便捷 , 最实用的一种。现如今社会在飞速发展,人们的生活节奏也在不断加快,工作压力也在日益增大,致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择,医学表明音乐不仅可以对人们紧张的心情带来放松,还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。 然而可惜的是,传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的:一是按键式控制(其中也包括线控式),通过直接按键改变电平发出指令;二是通过远程控制,通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐,此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制,使其更加方便、更加人性化,实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼,而且是为了研究语音识别技术在单片机中的应用,特别是在SPCE061中实现语音识别的应用,设计出具有语音控制功能的音乐播放器。 国内外研究现状 语音识别的研究工作可以追溯到 20世纪50年代AT&T贝尔实验室的Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60年代末

语音识别技术调研报告

语音识别技术的原理和应用语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。 在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。导致语音识别在互联网和传媒行业一直没有得到广泛的应用。但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。例如音频指纹技术和音频二维码技术等。下面本文具体讨论这两种技术。 音频二维码 音频二维码技术 二维码技术经过多年的发展,已成为大家耳熟能详的名词了。二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。但是普通的二维码技术只是将文本信息进行加码和解码。这导致二维码只能传输普通的文本信息。如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫

无疑问音频信息将成为互联网行业的第三大入口方式。 音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。 2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。这四位二进制数是待发送文件的ID。发送端向接收端发送的其实只是上述生成的ID。发送端在向客户端发送ID的同时向云端发送ID和数据。在接收端接收到ID后,通过该ID向云端获取对应的数据。 音频二维码应用 音频二维码的应用非常广泛。音频二维码通过声音传递信息。广播和电视也通过声音传递信息。如果结合音频二维码技术和广播电视技术,将使二者相得益彰。音频二维码可以使广播电视用户不再是单一的受众,也是参与者。通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。 例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串

语音识别的发展及应用

语音识别的发展及应用 本文介绍了隐马尔可夫模型(Hidden Markov Model,HMM),传统的人工神经网络语音识别方法以及改进的人工神经网络,针对最近研究热点深度学习在语音识别中的应用做了详细的描述,并对与人工神经网络在语音识别中的缺点进行阐述,就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。 标签:隐马尔科夫模型人工神经网络深度学习 一、引言 伴随着计算机技术的不断进步以及人工智能学科的飞速发展。人们对大脑学习、思维机能的研究逐渐深入。人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络,受到了广泛的关注。深度学习作为人工神经网络的一个分支,能够从海量的数据中挖掘到有效的信息,成为语音识别领域的一个研究热点。 二、隐马尔科夫模型 隐马尔可夫模型[3](HMM)是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集。 隐马尔科夫模型(HMM)可以用五个元素来表示,包括两个状态集合和三个概率矩阵:1.隐含状态S;2.可转移状态O;3aaaa.初始状态概率矩阵π;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔科夫模型。应用隐马尔科夫模型通常解决三类基本问题:1.评估问题;2.解码问题;3.学习问题。 隐马尔可夫模型是目前进行声学建模的主流技术。采用5状态的连续HMM 模型(见图1),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有高斯概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。 图1 五状态HMM模型结构 三、深度神经网络模型 1.神经网络的基本概念 神经网络即人工神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法的数学模型。此网络依靠系统的复杂程度,通过调整内部大

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟

摘要: 本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。 服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ,微软Specch SDK5语音合成,和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。 [关键词] 人机对话,MS-AGENT,语音合成,语音识别,网络编程 [Abstract] This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet. The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol. [Key Words] Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming

语音识别研究的背景意义及现状

语音识别研究的背景意义及现状 研究的背景及意义 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别(Speech Recognition)技术的出现,使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中己经占到越来越大的比例。 音乐就是一种艺术。通常可以解释为一系列对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等,有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术,不论是唱、奏或听,都内涵着关联人们千丝万缕情感的因素。特别对人的心理,会起着不能用言语所能形容的影响作用。 音乐可以通过几种途径来体验,而音乐播放器是现代生活中最便捷,最实用的一种。现如今社会在飞速发展,人们的生活节奏也在不断加快,工作压力也在日益增大,致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择,医学表明音乐不仅可以对人们紧张的心情带来放松,还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。 然而可惜的是,传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的:一是按键式控制(其中也包括线控式),通过直接按键改变电平发出指令;二是通过远程控制,通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐,此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制,使其更加方便、更加人性化,实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼,而且是为了研究语音识别技术在单片机中的应用,特别是在SPCE061A中实现语音识别的应用,设计出具有语音控制功能的音乐播放器。 国内外研究现状

2018年声学行业分析报告

2018年声学行业分析 报告 2018年1月

目录 一、软硬件逐渐成熟,助推音箱智能化创新 (5) 1、语音交互/远场拾音技术进步,催生声学创新 (5) (1)语音交互为本能表达,带来全新体验 (5) ①信息密度高,自然且普适 (7) ②解放双手,更少的感官占用 (8) (2)软件端:方案不断发布,AI 技术提升识别准确度 (9) ①各类语音交互软件不断面世 (9) ②AI技术提升语音识别准确度 (10) ③语音搜索普及度提升,第三方应用进一步促进行业发展 (12) (3)硬件端:麦克风阵列解决远场语音交互难题 (13) 2、行业巨头入局,市场迎来爆发 (15) 二、智能音箱:语音交互的入口,智能家居的中心 (16) 1、始于音乐,但又不止于音乐 (17) (1)智能音箱在音乐播放上优势明显 (17) (2)音乐数字化趋势明确,在线音乐已为主流 (18) (3)不止于音乐,有声读物不断丰富 (20) 2、移动互联网之后又一核心入口,价值凸显 (20) 3、产品不断面世,市场迎来爆发 (23) (1)国际品牌:软件体系完善,引领市场风潮 (24) ①亚马逊:行业领导者,Echo生态不断完善 (25) 1)产品线丰富 (25) 2)出货量过千万,市占率第一 (25) 3)支持软件众多,应用丰富 (26) 4)配置出色 (27) ②苹果:HomePod 发售在即,更注重音乐本质 (27) ③谷歌:算法能力强大,整合多样成熟服务 (29) (2)国内品牌:本土化优势明显,语言限制有望突破 (31)

三、智能耳机:声学领域另一重大创新方向 (33) 1、苹果带动市场发展,用户满意度极高 (33) (1)苹果推出AirPods,产品品质出色 (33) (2)AirPods 成为爆款,带动智能耳机市场 (34) 2、移动语音交互结合生物监测,智能耳机不再鸡肋 (36) (1)智能耳机适合移动语音交互,布局“On-The-Go”场景 (36) (2)集成生物监测功能,智能耳穿戴不再鸡肋 (37) (3)引入主动降噪,声学性能进一步提升 (38) 3、厂商积极推进,未来有望标配 (39) 四、产业链:中国企业占据核心位置,受益产业发展 (41) 1、芯片:成本大头,传统芯片大厂领导市场 (42) 2、麦克风:阵列为主流方式,MEMS MIC 用量快速提升 (44) 3、扬声器:苹果带动音质提升,发声元件价值量大幅增长 (47) 4、OEM/ODM:全新产品形态带来业务增量 (48) 五、相关企业 (49) 1、国光电器:智能音箱爆发在即,公司明确受益 (50) 2、立讯精密:大客户平台型供应商,声学业务高成长可期 (50) 3、歌尔股份:智能音箱带来声学元件及ODM 业务增量 (51) 六、主要风险 (51) 1、HomePod使用效果不及预期 (51) 2、语音交互产业发展不及预期 (51)

语音识别技术的发展与未来

语音识别技术的发展与未来-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。自此,我国语音识别技术进入了一个新的发展阶段。 自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

人工智能技术服务专业调研报告

人工智能技术专业调研报告 目录 一、人工智能的主要研究范畴 (2) 1.1 自然语言处理 (2) 1.2 计算机视觉 (2) 1.3深度学习 (2) 二、人工智能目前最广泛的应用 (3) 2.1 人工智能在医疗卫生服务中的应用 (3) 2.2 人工智能在基层医疗卫生服务中的应用 (4) 2.3 人工智能技术在护理领域的应用 (4) 2.4人工智能在心脏磁共振成像中的应用 (5) 2.5 人工智能技术在文教娱乐领域中的应用 (5) 2.6人工智能技术在教育行业中的应用 (5) 2.7 人工智能技术在出版行业中的应用 (6) 2.8 人工智能技术在图书馆的应用 (6) 2.9 人工智能技术在制造业和服务行业中的应用 (7) 1.10人工智能技术在纺织行业的应用 (7) 2.11 人工智能技术在炼化领域的应用 (8) 2.12 人工智能技术在客服系统的应用 (8) 2.13人工智能技术在银行业的应用 (9) 2.14人工智能技术在食堂配餐系统的应用 (9) 三、人工智能的发展前景 (9) 四、专业培养目标 (10) 1、人工智能技术方向培养目标 (10) 五、培养模式及特色 (11) 1、采用“三段式”+“三明治”+三学期制培养模式 (11) 2、专业特色 (12) (1)课程设置与培养内容面向行业、企业需求 (12) (2)构建了个性化人才培养体系 (12) 六、主干学科、主要课程、专业核心课程 (13) 七、专业建设模块 (13)

“人工智能”这一概念 1956 年在达特茅斯会议上被首次提出,到现在已经有了 60 多年的发展历程。人工智能是一门交叉、广泛的科学,它的研究目的是使机器能够像人类一样识别、学习、思考。随着互联网技术的高速发展,人工智能技术不断革新,应用领域不断扩大。 人工智能的发展曲折起伏,在其发展的早期取得如机器定理证明等一些成果,这些成果激励人们对人工智能领域有了更高的期望,然而由于理论技术的局限,人们提出了一些不合理的目标,翻译机器闹出的笑话等失败的研究使得人们的预期落空。20 世纪 70 年代初到 80 年代中,通过模拟人类专家的知识和经验去解决特定问题的专家系统应用在化学、医疗等领域,实现了人工智能从理论到实际应用的重大突破;紧接着人工智能技术迎来发展的低迷期,专家系统知识储备不足、分析问题方式单一等问题暴露出来;1997 年,深蓝计算机战胜国际象棋世界冠军卡斯帕罗夫;2011 年至今,随着大数据、云计算、物联网等快速发展,以神经网络为基础的人工智能技术极大地促进了科学转化为应用,图像识别、语音识别、无人驾驶等迎来前所未有的发展高潮。大量以深度学习为基础的人工智能技术有着人工干预的局限性,科研人员试图使用减少人工干预的自主智能方法来降低人员成本,未来人机混合智能将会成为主要发展方向。 2017-07,国务院发布《新一代人工智能发展规划》,为抢占全球人工智能制高点,中国已将其上升至国家战略,国务院要求从小学起增加人工智能相关课程,形成人才梯队,抢抓人工智能发展机遇将会给科技发展和产业变革带来重大影响。 一、人工智能的主要研究范畴 1.1 自然语言处理 语言是人类区别于其他动物的本质特征,人类的智慧大多以语言的实质得以记载或者流传,自然语言处理是人工智能领域的重要分支,主要包括自然语言理解和自然语言生成,它的目的是实现人机间自然语言通信,把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。想要实现通用的、高质量的自然语言处理是人类的终极目标。虽然目前这一项研究针对一定应用已经产生实用系统,一部分

语音识别系统调研报告

语音识别系统调研报告 姓名:罗小嘉学号:2801305018 1、摘要:本文简要的介绍了语音识别系统的原理,发展和在各个方面的应用前景。 2、关键词:语音识别;应用 3、引言:语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展. 4、正文:语音识别系统要求能够实现实时语音识别。该语音识别系统的关键技术主要是语言实时识别技术、语音端点检测与声韵分割。如图: 对于语音端点检测与声韵分割的问题,从背景噪声中找出语音的开始和终止,这在语音处理中是很基本的问题,因为准确的端点检测,不仅可以提高识别精度,还可以避免计算噪声,减少计算量. 大多数语音处理系统采用过零率和能量两参数作端点检测. 但过零率受噪声影响较大,采用多门限过零率作语音起点检测,将能量信息直接反应在门限中,同时将分析窗长取小,使起点检测比较准确,效果较好. 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理 语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示: 未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法 目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。 动态时间规整算法(Dynamic Time Warping,DTW)是在非特定人语音识别中一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度,按照某种距离测度得出两模板间的相似程度并选择最佳路径。 隐马尔可夫模型(HMM)是语音信号处理中的一种统计模型,是由Markov链演变来的,所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本,且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出,因此是较理想的语音识别模型。 矢量量化(Vector Quantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中,人们还研究了多种降低复杂度的方法,包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。 人工神经网络(ANN)是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

浅谈语音识别技术的应用和发展

浅谈语音识别技术的应用和发展 摘要语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,其最终目标是实现人与机器进行自然语言通信。语音作为一个交叉学科,具有深远的研究价值,近50年的研究发展,语音识别技术已经有了极大的发展。本文介绍了语音识别技术的基本原理和应用,并且对语音识别技术的发展趋势进行了展望。 关键词语音识别;应用;发展 0 引言 语音是人类互相之间进行交流时使用最多、最自然、最基本、最重要的信息载体。在高度信息化的今天,语音处理的一系列技术及其应用已经成为信息社会不可缺少的组成部分。语音的产生是一个复杂的过程,包括心理和生理等方面的一系列因素。当人们需要通过语音表达某种信息时,首先是这种信息以某种抽象的形式表现在说话人的大脑里,然后转换为一组神经信号,这些神经信号作用于发声器官,从而产生携带信息的语音信号。 1 语音识别的研究历史及现状 在国外语音识别的研究工作可以追溯到上世纪50年代。1952年AT&T贝尔实验室的Audry系统是第一个可以识别十个英文数字的语音识别系统。 上世纪60年代末70年代初出现了语音识别方面几种基本思想,其中重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效的解决了语音信号特征提取和不等长语音匹配问题,同时,还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 上世纪80年代语音识别研究进一步走向深入,其显著特征是隐马尔可夫模型(HMM)和人工神经网络(ANN)在语音识别中的成功应用。上世纪90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切的要求语音识别系统从实验室走向实际应用。具代表性的是IBM的Via V oice和Dragon公司的Dragon Dictate 系统,这些语音识别系统具有说话人自适应能力,新用户不需要对全部词汇进行训练便可在使用中不断提高识别率[1]。

相关主题