搜档网
当前位置:搜档网 › 视音频编解码技术及应用

视音频编解码技术及应用

视音频编解码技术及应用
视音频编解码技术及应用

视音频编解码技术及应用

工科类

信息工程学院本科论文

题目:视音频编解码技术及应用

别系:信息工程学院

专业:信息工程

届次: 2012届

学号: 2012041183

姓名:焦杰

指导教师:杨宇老师

2014年9月28日

音频编解码器的简短历史可追溯到20世纪80年代中期,德国Fraunhofer 研究所首先开始从事高质量、低码率的音频编码研究。他们的项目作为面向市场的尤里卡(Eureka)研究计划(EU一147)的一个部分得到了欧盟的财政资助。1989 年,Fraunhofer在德国获得了MP3的专利权。后来,MP3递交给了国际标准化组织(ISO),于1992年成为正式的MPEG一1标准的一部分。1995年1月,Fraunhofer在美国也申请了MP3专利,并于1996年l1月获批。使用MP3格式压缩的个人计算机用户能将一张普通的音乐CD (激光唱碟)的内容压缩到它原来大小的1/10,而在音质上只有很小的损伤。这样,12个d,n,t的音乐可存储在一张可录制的激光唱碟上,而且可用一台MP3格式的CD播放器或一台普通的个人计算机来播放。现今,市场上提供的移动设备从笔记本电脑、掌上型电脑到手机应有尽有,而且高速无线网络正在日益发展。与此同时,宽带语音和高保真音频压缩编码技术在商业应用驱动下得到了迅速的发展。电话语音、宽带语音和宽带音频信号不仅在带宽和动态范围上有所不同,而且在收听者对所提供的音质期待上也不相同。宽带的使用不仅改善了语音的可懂度和自然度,也增加了面对面直接交流的感觉,更容易识别说话人。目前,移动通信领域不断推出新的业务,包括流媒体、多媒体短信、广播和下载等。流媒体业务包括听新闻、听音乐、运动比赛的监听、商业广告、交互式游戏等。广播业务类似于流业务,此外还包括因特网的网上广播。与下载的音频文件不同,流式音频文件无需存储在用户的硬盘上,但通过用户的音频播放器可像传统的收音机那样进行广播。多媒体短信业务也与流业务类似,但由于受文件大小的限制,只包括商业单位与个人以及个人与个人之间的短信发送和接收。下载业务包括网络上的音乐、书籍和连环图画的下载。

上述应用对音频编解码器提出的要求主要包括:

(1)处理通用内容的能力;(2)在最低码率下保证有足够好且始终如一的音质;(3)在最低码率下要获得最好的音质;(4)可变码率要求下的高质量操作。

对于低资源设备(具有低的存储和计算资源),必须对音频编解码器进行优化。目前,开发和标准化编解码器的工作主要由3GPP (The 3rd Generation Part —nership Project,第三代移动通信伙伴项目)负责。

3 音频编解码器的发展趋势及比较

移动通信平台的硬件正在经历迅速的发展,因此,在未来的移动设备中期待出现新的软件和应用。随着中央处理单元(CPU)处理能力的不断增强以及存储器价格的下降,可以推断出在不久的将来移动设备将会是怎样的。无线信道也处在不断的发展之中,连接移动设备的带宽正在不断的增加,是否还需要像HE —AAC那样能提供有效压缩的编解码器。

3.1 新式移动电话的特征

硬件研究的主要目标是移动电话,因为移动电话的数量远远超过个人数字助理(PDA)的数量。移动电话也是一个很好的低端移动设备平台的代表,因为对移动电话的主要设计要求是其尺寸和重量。3G移动电话操作系统的主要制造商

Symbian公司最近推出的Symbian操作系统OS 8,已用于像Nokia 6630这样的基于60系列、SDK2.0平台的3G移动电话上,能支持AMR,AMR—WB,MP3,AAC 和RealAudio等音频编解码器口01。如Nokia 7710这样较高档的手机甚至能支持立体声的音频编解码器。因此,在中、高档移动电话手机中,对音频和多媒体应用的硬件瓶颈已被打破。然而,在低档的移动电话手机中,主要由于考虑到低价格的要求,对于音频的应用目前仍然存在一些硬件限制,但在不久的将来,相信这些硬件限制将不会存在。

3.2 移动通信网络的特征

目前用于移动电话系统的基本GPRS(GeneralPacket Radio Services,通用分组无线业务)网络支持的通信速率为30-50 Kb/s。EDGE (Enhanced Datarates for GSM Evolution,增强数据速率的GSM演进方案)或EGPRS(Enhanced GPRS,增强型GPRS)技术将终端用户的速率增加到了120~150 Kb/s,甚至更高。如果手机中使用了最新的音频编解码器,则EGPRS的速率对于流式音频应用是足够的。EGPRS可应用于大部分的中档手机甚至一些低档手机,但目前只能在大城市和市郊可用。UMTS(Universal Mobil Telecommu.nication System,通用移动通信系统)提供的数据速率为384 Kb/s(TDD 模式)-2 Mb/s(TDD 模式),但到目前为止,UM 只应用于高档手机且仅在市区可用?。

3.3 音频编解码器的比较

比较音频流质量的方法有许多种,其中一个方法是让听众来判断质量。通常将EBU(European Broad—casting Union,欧洲广播联盟) 采用的一种测试MI JSHR A MIJhi Stimulus test with Hidden Referenceand Anchors作为评判的参考_l21。它是由EBU 项目组B/AIM 开发并提议的一种先进的测试方法,现已提交

给ITU进行标准化。MUSHRA是一种主观测试方法,参加测试的一组听众来自欧盟的不同国家,他们使用各种不同类型的音频信号作为编码器的输入,将解码器的输出与一个参考信号进行比较,并按100分制进行评分。如果给出的平均分在8l~100之间,则认为是“优”,6l~80则认为是“好”,41~60则认为“一般”,21~40则认为“差”,0~20则认为“坏”。不同类型的音乐,例如古典音乐、民间音乐、爵士乐和流行音乐都要测试。演播室和直播环境中的男、女声广播节目也被测试。EBU公布的测试结果是:在码率为48 Kb/s的立体声情况下,HE—AAC的性能最好,音质几乎接近立体声的CD音质,获得了80分的最高分,其它依次是MP3 Pro (76分),MPEG一4 AAC,Real Audio 8,Win—dows Media Audio 8和MP3。测试证实了SBR增强编解码器MP3 Pro和HE—AAC 的优越性能。EBU还没有报告AMR—WB+编解码器的MUSHRA测试结果。对于分组交换流(PSS)、多媒体短信业务(MMS),3GPP已候选了2种码率范围的编解码方案:(1)当码率低于24 Kb/s时,AMR—WB+,HE—AAC以及EAAC+将作为候选方案;(2)当码率高于24 Kb/s时,HE-AAC和EAAC+将作为候选方案。3GPP对AMR —WB+编解码器在48 Kb/s码率下进

行了MUSHRA测试,得到83分。对于低于24 Kb/s码率的立体声,3GPP的MUSHRA 测试结果表明AMR—wB+的性能稍好于EAAC+。

3.4 移动电话对最新音频编解码器的支持

目前,在中、高档的手机中都已使用了像AAC,AMR—WB这样的编解码器,但还不支持使用SBR技术的最新编解码器。这意味着HE—AAC(aacPlus)、EAAC+和AMR—WB+还不能应用在移动系统中。但随着3GPP标准的推出,支持这些最新编解码器的产品不久就会上市。Nokia已于2004年7月签署了aacPlus授权协议书,这意味着aacPlus很快将用在其手机上。Ogg Vorbis开放编解码器在移动电话商业市场上似乎不那么成功。他们通常不能作为标准而被支持,但是对此感兴趣的用户可以安装编码器和播放器。目前一个称为OggPlay的免费播放器能在具有Symbian

OS7或较新版操作系统的60系列手机上支持ogg,mp3及acc格式文件Windows Media在移动电话市场中还没有获得成功,无法取得像在PC市场中那样的地位。然而,RealMedia Player已在移动电话中被使用,从而在移动通信市场中占有一席之地。

3.5 音频编解码器在移动设备中的应用

下载音乐内容到手机的应用已经存在,目前至少有2个商业的播放器(MP3go和UltraMP3)支持MP3格式音乐的播放。这些播放器也支持播放列表的创建和使用。目前,其主要缺点是:对于高音质的MP3音乐,每首歌需要3~5 MB 的存储容量。如果使用HE—AAC或AMR—WB,则每首歌所需的存储容量可压缩到l MB以下。这就使得低档的手机有可能存储更多的音乐;在EGPRS网络中一首歌的下载时间也会从5 min减到1 min。英国移动电话公司MMO2在2004年11月开通了一项下载音乐到移动电话手机的业务[161。它使用了称做O2数字音乐播放器。音乐文件以MPEG4 aac—Plus的格式进行编码,其大小约为l MB。在GPRS 网络中一首歌的下载时间约90 S。版权保护技术由瑞士的SDC(Secure Digital Container)公司提供。移动电话上的流式应用已存在,手机上可享受音乐和视频。例如,芬兰广播公司YLE在GPRS网络上以20~50Kb/s的流发送新闻。选择这种码率,在芬兰的任何地方都能接收新闻。目前最常见的格式是Real—Media,但在不久的将来,其它的格式也必将可用。目前存在的一个问题是:由于GPRS网络的带宽有限而无法保证媒体内容的质量。但随着网络带宽的增加以及高效编解码器的应用,这个问题将会很快解决。根据美国的市场研究中心In—Stat预测,美国的流式视频市场将在最近2年增长,直到2009年将达到无线市场总收入的l5%。另一项研究表明,目前11%的移动电话用户对购买移动电话网上的音乐感兴趣。

5 结束语

在过去的几年里,针对移动电话的音频编解码器发展非常迅速。编解码器的增强版本几乎每年发布,在压缩算法中总有一些新的技术被采用。目前最好的音频编解码器是AMR—WB+或EAAC+,这取决于被编码音频素材的类型。但是,

随着新的应用及市场的驱动,新的编解码技术还会不断涌现。

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

数字音视频编解码技术标准工作组

数字音视频编解码技术标准工作组 A VS Mxxxx: 201X年XX月 来源: 包括作者、单位名称等与创作者相关的信息 标题: 状态: 描述文件的版本或其他需要说明的信息,例如视频提案、DRM信息等 ___________________________________________________ 正文 中国数字音视频编解码技术标准工作组 会员提案专利披露与许可承诺表 根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定,A VS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》,作为该提案的必要组成部分同时提交。 专题组名称:音频□视频□系统□DRM□ 提案A VS文档编号:_ 提案日期:________ 提案标题: 提案会员名称:_ 提案代表姓名(印刷体):Email: 提案代表通讯地址:邮编 电话:______ __ 传真:__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。 表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□ 如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请,提案会员应当填写下表: 表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公

视音频编解码技术及应用

工科类 信息工程学院本科论文 题目:视音频编解码技术及应用 别系:信息工程学院 专业:信息工程 届次: 2012届 学号: 2012041183 姓名:焦杰 指导教师:杨宇老师 2014年9月28日

视音频编解码技术及应用 (——视音频编解码技术及应用 焦杰 【摘要】首先分析了在各个不同的历史阶段为满足不同的需求而提出的各种音频编解码器,讨论了最常见编解码器的特征和性能。然后考虑了它们对当前和未来移动通信需求的适应性,比较了各种音频编解码器的性能。最后给出了一些音频编解码器在移动通信系统中的应用。 【关键词】音频编解码器;增强的高效高级音频编码;增强的自适应多码率宽带音频编码;可变速率多模式宽带音频编码;谱带恢复。 1 引言 当今,各种各样的音频编解码器广泛应用于Et常生活中。选择哪种编解码器通常取决于以下因素:音频素材的内容类型、可用通信速率和收听场合对音质的要求。可能影响编解码器选择的其它因素,还包括标准化情形、专利费和市场品牌。尽管MP3格式已获得了很大的成功,但它不适合于移动设备。近来,效率较高的编解码器(如AAC和AMR)已被提出,并为适应移动的音频应用而不断改进。 笔者将通过揭示音频编码和解码的技术原理、标准化情形以及涉及可用技术和市场需求的编解码器的适应性来评估最常见的音频编解码器,同时也考虑到移动通信领域在硬件和软件上的发展状况,分析现有和将来的音频应用,以阐明对移动音频的需求和期待。 2 音频编解码器的历史背景 音频编解码器的简短历史可追溯到20世纪80年代中期,德国Fraunhofer 研究所首先开始从事高质量、低码率的音频编码研究。他们的项目作为面向市场的尤里卡(Eureka)研究计划(EU一147)的一个部分得到了欧盟的财政资助。1989

(完整)流媒体传输协议及音视频编解码技术

1.1音视频编解码技术 1.1.1 MPEG4 MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。 目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现,MPEG3只能是死于襁褓了。MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1、MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV 对象是MPEG4标准的基本内容。 在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。 由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高清晰度的DVD电影, 可以压缩成两张甚至一张650M CD光碟来存储。对广大的“平民”计算机用户来说,这就意味着, 您不需要购置DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片,对机器硬件配置的要求非常之低,300MHZ 以上CPU,64M的内存和一个8M显存的显卡就可以流畅的播放。在播放软件方面,它要求也非常宽松,你只需要安装一个500K左右的MPEG4 编码驱动后,用WINDOWS 自带的媒体播放器就可以流畅的播放了 AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的音视频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互性的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。 MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用 1.1.2 H264 H.264是由ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)联合组建的联合视频组(JVT:joint video team)提出的一个新的数字视频编码标准,

各种音视频编解码学习详解 h264

各种音视频编解码学习详解h264 ,mpeg4 ,aac 等所有音视频格式 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。wiki的中文还是很不错的,但是阅读后建议再阅读英文。 我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。 基本概念 编解码 编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。 容器 很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。 FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、a vi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于―IDP3‖的FourCC。 视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。 参数介绍 采样率 采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。

音频编解码介绍

音频编解码原理介绍 一.为什么要进行音频编解码 二.音频编解码原理 三.几种基本音频编解码介绍 一、为什么要进行音频编解码 随着人们对多媒体图像和声音的要求越来越高,在高清晰数字电视(HDTV)和数字电影中不仅应有高质量的图像,也应当具有CD质量的立体声。因为用数字方法记录声音比用模拟方法记录声音具有更强的优势,例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。但是数字声音最大的缺陷是记录的数据量大,表现在两个方面:其一是在传输过程中,传输数字声音需要占用很宽的传输带宽;其二是在存储过程中,需要占用大量的存储空间。所以在数字音频中需要采用数字音频压缩技术,对音频数据进行压缩。 二、音频编解码原理 每张CD光盘重放双声道立体声信号可达74分钟。VCD视盘机要同时重放声音和图像,图像信号数据需要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD光盘中。 一、伴音压缩编码原理 伴音信号的结构较图像信号简单一些。伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴音信号中剔除冗余信息。人耳朵对音频信号的听觉灵敏度有规律性,对于不同频段或不同声压级的伴音有其特殊的敏感特性。在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性。 1、阈值和掩蔽效应 (1) 阈值特性 人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如100Hz以下)和超高频段(例如16KHZ以上)的听觉灵敏度较低,而在1K-5KHZ的中音频段时,听觉灵敏度明显提高。通常,将这种现象称为人耳的阈值特性。若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特性的数值界限。将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息。 在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成分,而那些听觉不灵敏的频段信号不易被察觉。应当保留强大的信号,忽略舍弃弱小的信号。经过这样处理的声音,人耳在听觉上几乎察觉不到其失真。在实际伴音压缩编码过程中,也要对不同频段的声音数据进行量化处理。可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感频段则采用较细小的量化步长,使用较多的码位来传送。 (2)掩蔽效应 掩蔽效应是人耳的另一个重要生理特征。如果在一段较窄的频段上存在两种声音信号,当一个强度大于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音信号却听不到,好像是小音量信号被大音量信号掩蔽掉了。由于其它声音信号存在而听不到本声音存在的现象,称为掩蔽效应。 根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响。既使保留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息。舍弃掉这些信号,可以进一步压缩伴音数据总量。

数字音视频编解码技术标准工作组知识产权政策

数字音视频编解码技术标准工作组知识产权政策

————————————————————————————————作者:————————————————————————————————日期:

数字音视频编解码技术标准工作组知识产权政策 (2004年9月12日第十次工作会议通过实施) (2008年3月29日第二十四次工作会议修订) 第一章、总则 第一条本知识产权政策文件(“知识产权政策”)规定了中国数字音视频编解码技术标准工作组(“工作组”)的与制订A VS技术标准的整个过程及其所产生的标准文 档相关的知识产权的管理规则。 第二条通过签署A VS会员协议,会员书面承诺该会员及其关联者及其工作组成员同意并遵守本知识产权政策的条款。 第三条本知识产权政策是A VS会员协议的必要组成部分,并通过引用纳入会员协议。 第二章、定义 第四条对于在本知识产权政策中使用并且在A VS章程、A VS会员协议和A VS章程细则中已有定义的词语,其含义应遵从有关文件中的定义。以下词语在本知识产 权政策中定义为以下含义: 1、“符合部分”仅指有关产品或服务中实施并符合最终A VS 标准的所有相关规范性要求的特定部分,这些规范性要求应当 在最终A VS标准中明确公开,并且其目的是为了使产品或服 务能够实现该最终AVS标准所定义的解码、编码、发送数字 媒体或识别和实施权利管理。 2、“必要权利要求”是指根据授权或公布专利的所在国法律, 被最终A VS标准的符合部分不可避免地侵权的该专利中的某 一权利要求,且仅限于该权利要求。 专利的某一权利要求被不可避免地侵权,是指该侵权不可能在 实施最终A VS标准时通过采用另一个技术上可行的不侵权的 实施方式予以避免。 必要权利要求不包括,并且许可也不适用于:(1)不符合上文 规定的其他权利要求,即使该权利要求包含在同一件专利中; (2)在最终的A VS标准文档中引用或以参考方式包括在内的 其他标准中涉及的权利要求;(3)制造或使用符合最终AVS 标准文档的任何产品、服务及其部分时可能必要,但没有明确 地在该标准文档中描述的实现技术。 3、“专利”是指许可方或其关联者拥有的或者在无需向非关联 第三方付费的情况下有权许可的,在任何国家授权的任何专 利、可执行的发明证书、授权的实用新型、或公布提请异议的 任何可执行的专利申请或实用新型申请,但不包括外观设计专 利和外观设计登记。 4、“规范性参考文件”是指并非由工作组制定而是通过引用包

音频编解码技术的延时问题

SBC编解码器在A2DP协议里是必不可少的。由于是将信号以帧的形式填充到蓝牙数据包中,其整体延迟时间比较高,主要归于以下几个因素: 1.编解码器延迟:每个音频编解码器在将数据进行编码、解码并发出去之前会造成一定的内部延迟。传统的编解码器已检测到高达50ms的编解码器延迟。 2.传输延迟:A2DP传输层采用数据包结构。工程师在使用基于SBC或感知的帧填充数据包时,有两个方案选择:其一是将一个帧放入大型蓝牙数据包中(图1);其二是将一个帧分解成两个蓝牙数据包(图2)。采用第一个方案会降低数据传输的稳健性,而在第二个方案中,解码器只有在接收到两个蓝牙数据包以后才能对分解帧进行解码,因此将大大增加传输延迟时间。 图1

图2 apt-X是CSR 公司专有的一种编码格式,压缩率4:1(约352 kbit/s),号称可以达到CD 音质。由于是专有格式,必须要求播放设备与接受设备均采用CSR的蓝牙模块才行。 特点:无缓冲,低延迟,如果出现数据包损失的话,几乎无需重传数据。apt-X不同于SBC,它采用无框架结构。解码过程中,aptX编解码器无需等待便可高效地对蓝牙数据包进行填充,也就是说,一旦它接收到数据包便即刻启动解码过程,无需等待(图3)。此外,aptX采用固定压缩率算法,可在传输过程中始终提供相同的比特率,从而保证每个配备aptX的产品输出相同的音质。 aptX具备的一系列独特特性在提供专业的音频性能及稳健性的同时,还可保证40ms的编解码延迟。 图3 关于解码方式的一个比喻: 我们可以想象一个四车道的高速公路经过一座只有单车道的桥。使用aptX技术相当于桥头上的收费站将四车道上的车流处理(或编码)成单车道队列,使其能够穿桥而过。然后,在桥尾有另一个收费站将单车道车流又处理(或解码)回四车道。 SBC、AAC 和MP3技术的这些收费站,会限制通过车辆所允许携带的汽油量,这样每辆车都必须将超出限量的汽油放掉。当他们通过桥另一端的收费站后,虽然汽油也许不会全部用完,但肯定比来时要少很多。此外,一旦您过了桥,之前放掉的汽油不会再还给您。换句话说,您永远失去了这些汽油。对重现音频这一事件来说,相当于上述几种解码方法使用更具破坏性的压缩技术来处理音频数据,使其能通过蓝牙传输,这意味着它们将扔掉自认为不重要的音频元素,仅重现有限的音频带宽。 SBC与aptX差别: 与SBC(Sub-Band Codec子带编解码)技术相比,aptX的优势比较明显: 在频率响应方面,aptX可以在整个频率范围内真实还原音频,SBC则会随着频率的增高,信号渐弱,从而导致失真显著。

各种音视频编解码学习详解

各种音视频编解码学习详解 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。wiki的中文还是很不错的,但是阅读后建议再阅读英文。 我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。 基本概念 编解码 编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。 容器 很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。 FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于―IDP3‖的FourCC。 视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。 参数介绍 采样率 采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。 采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。 对于语音采样: ?8,000 Hz - 电话所用采样率, 对于人的说话已经足够 ?11,025 Hz ?22,050 Hz - 无线电广播所用采样率 ?32,000 Hz - miniDV 数码视频camcorder、DAT (LP mode)所用采样率 ?44,100 Hz - 音频CD, 也常用于MPEG-1 音频(VCD, SVCD, MP3)所用采样率

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

音频编解码原理讲解和分析

音频编码原理讲解和分析 作者:谢湘勇,算法部,xie.chris@https://www.sodocs.net/doc/a811114649.html, 2007-10-13 简述 (2) 音频基本知识 (2) 采样(ADC) (3) 心理声学模型原理和分析 (3) 滤波器组和window原理和分析 (6) Window (6) TDAC:时域混叠抵消,time domain aliasing cancellation (7) Long and short window、block switch (7) FFT、MDCT (8) Setero and couple原理和分析 (8) 量化原理和分析 (9) mp3、AAC量化编码的过程 (9) ogg量化编码的过程 (11) AC3量化编码的过程 (11) Huffman编码原理和分析 (12) mp3、ogg、AC3的编码策略 (12) 其他技术原理简介 (13) 比特池技术 (13) TNS (13) SBR (13) 预测模型 (14) 增益控制 (14) OGG编码原理和过程详细分析 (14) Ogg V orbis的引入 (14) Ogg V orbis的编码过程 (14) ogg心理声学模型 (15) ogg量化编码的过程 (16) ogg的huffman编码策略 (17) 主要音频格式编码对比分析 (19) Mp3 (19) Ogg (20) AAC (21) AC3 (22) DRA(A VS内的中国音频标准多声道数字音频编码) (23) BSAC,TwinVQ (24) RA (24) 音频编码格式的对比分析 (25) 主要格式对比表格如下 (26) 语音编码算法简介 (26) 后处理技术原理和简介 (28) EQ (28)

常见的音频编码标准

常见的音频编码标准 在自然界中人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而,3G网络带来了移动多媒体业务的蓬勃发展,视频、音频编解码标准是多媒体应用的基础性标准,但其种类较多,有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的,下面我们介绍一下最常见的编码技术。 1.PCM PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 2.W A V WA V是Microsoft Windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频,但实际上W A V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在W A V格式里面存放图像。之所以能这样,是因为W A V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(通常称为CODEC,编码/解码器),可以在W A V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。 虽然W A V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:Sound Forge, Cool Edit Pro, 等等。 3.MP3 MP3它的全称是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。 由于MP3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,否则就根本没有生命力。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的

视音频编解码技术发展现状和展望(四)

视音频编解码技术发展现状和展望(四) 4视音频编解码技术展望 由于数字视频编码的核心是对信号进行压缩,所以不断提高编码压缩效率仍是混合编码的主要发展目标。但是追求更高的压缩效率需要对传统的“变换+运动补偿+基于视觉的量化+熵编码”框架有所突破,给视频编码性能带来新的提升。 可伸缩的视频编码技术因为具有良好的网络适应性,所以围绕它的应用,尤其是网络环境下的应用,会越来越多。可以预见,在未来的网络视频监控中,可伸缩技术将是保证网络传输质量的一个重要实现技术。 而多视点编码方法的研究会集中在多视点视频的采集与校准,场景深度及几何信息获取(立体匹配),多视点视频编码,多视点视频通信,新视图渲染以及最终的交互或立体显示等6大关键上,这些技术的突破会为自由视点电视(FTV)、立体电视(3DTV)和沉浸感视频会议的应用提供技术支持。 作为SVC、MVC等各类视频编码的基础,混合框架的编码仍有很强的生命力。同时随着网络、通信、娱乐业对数字媒体的广泛需求,A VS、H.264这一代标准被普遍接受,相应的产品开发工作相当重要。包括编解码芯片、整机和系统。应用领域涉及数字电视、卫星电视、移动电视、手机电视、网络电视、时移电视机、新一代光盘存储媒体、安防监控、智能交通、会议电视、可视电话、数字摄像机等等。其中,安防监控领域是音视频编解码技术的主要应用领域之一。编解码技术在这个领域的应用,需要结合安防监控领域的特殊需求进行研究。只有在这个方向掌握有自主知识产权的核心技术,我国的安防监控产业才能健康持续的发展。 5 参考文献 1. ThomasWiegand, G.J.S., Senior Member, IEEE, Gisle Bj?ntegaard, and Ajay Luthra, Senior Member, IEEE, Overview of the H.264/AVC Video Coding Standard. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2003. 13(7): p. 17. 2. 周秉锋, 郑.叶., JVT草案中的核心技术综述.软件学报, 2004. 15(1): p. 11. 3. Ostermann, J., Hybrid Coding: Where Can Future Ga ins Come from?” 2005. 4. Julien Reichel, H.S., Mathias Wien, Scalable Video Coding – Working Draft 2, JVT, Editor. 2005. 5. Dr Francesco Ziliani, J.-C.M., Scalable Video Coding In Digital Video Security. 2005. p. 19. 6. Wallace Kai-Hong Ho; Wai-Kong Cheuk; Lun, D.P.-K., Content-based scalable H.263 video coding for road traffic monitoring. IEEE Transactions on Multimedia, 2005. 7(4): p. 9. 7. Ser-Nam Lim; Davis, L.S.E., A., Scalable image-based multi-camera visual surveillance system, in AVSS.2003. 2003. 8. Nicolas, H., Scalable video compression scheme for tele-surveillance applications based on cast shadow detection and modelling, in Image Processing, 2005. ICIP 2005. IEEE International Conference on. 2005. 9. May, A.T., J.; Hobson, P.; Ziliani, F.; Reichel, J.;, Scalable video requirements for surveillance applications. Intelligent Distributed Surveilliance Systems, IEE, 2004: p. 4. 10. 陶钧, 王., 张军, 姜志宏, 三维小波视频编码的可伸缩性研究.小型微型计算机系统,

中国数字音视频编解码技术标准规定工作组

中国数字音视频编解码技术标准工作组 会员提案专利披露与许可承诺表 根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定,AVS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》,作为该提案的必要组成部分同时提交。 专题组名称:音频□视频□系统□DRM□ 提案AVS文档编号:_ 提案日期:________ 提案标题: 提案会员名称:_ 提案代表姓名(印刷体):Email: 提案代表通讯地址:邮编 电话:______ __ 传真:__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。 表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请,

表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公开的中华人民共和国专利申请时,提案会员必须选中此表。 表B-3: 在中华人民共和国之外已获得授权的专利和/或已公开的专利申请□如果本提案中包含提案会员或其关联者在中华人民共和国之外已获得授权的专利和/或已公开的专利申请,提案会员应当填写下表: 表B-4: 在中华人民共和国之外未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的在中华人民共和国之外的未公开的专利申请时,提案会员必须选中此表。 提案会员可在下表中自愿披露上述未公开的专利申请的具体情况及选择许可承诺:

音频协议和标准

掌握音频协议和标准 时间:2011-01-02 17:52:18 来源:今日电子/21ic作者:ADI公司Aseem Vasudev 过去几年里,音频技术取得了巨大进步,特别是在家庭影院和汽车音响市场。汽车中的传统四扬声器立体声系统正逐渐被多声道多扬声器音频系统所取代。在印度,带双扬声器立体声系统的电视机现已被带5.1多声道的家庭影院系统所取代。 当今的音频设计挑战在于如何模拟实际的声音并通过各种音频设备进行传送。声音可以来自任何方向,实际上,我们的大脑能够计算并感知声音的来源。例如,当战斗机从一点飞到另一点时,它所产生的声音实际上来自无数个位置点。但是,我们不可能用无数个扬声器来再现这种音频体验。 利用多声道、多扬声器系统和先进的音频算法,音频系统能够惟妙惟肖地模拟真实声音。这些复杂的音频系统使用ASIC或DSP来解码多声道编码音频,并且运行各种后处理算法。声道数量越多,意味着存储器和带宽要求越高,这就需要使用音频数据压缩技术来编码并减少所要存储的数据。这些技术还能用来保持声音质量。 与数字音频一同发展的还有音频标准和协议,其目的是简化不同设备之间的音频数据传输,例如,音频播放器与扬声器之间、DVD播放器与AVR之间,而不必将数据转换为模拟信号。 本文将讨论与音频行业相关的各种标准和协议,同时也会探究不同平台的音频系统结构以及各种音频算法和放大器。 标准和协议 S/PDIF标准——该标准定义了一种串行接口,用于在DVD/HD-DVD播放器、AVR和功率放大器等各种音频设备之间传输数字音频数据。当通过模拟链路将音频从DVD播放器传输到音频放大器时,会引入噪声,该噪声很难滤除。不过,如果用数字链路代替模拟链路来传输音频数据,问题就会迎刃而解。数据不必转换为模拟信号就能在不同设备之间传输,这是S/PDIF的最大优势。 该标准描述了一种串行、单向、自备时钟的接口,可互连那些采用线性PCM编码音频采样的消费和专业应用数字音频设备。它是一种单线、单信号接口,利用双相标记编码进行数据传输,时钟则嵌入数据中,在接收端予以恢复(见图1)。此外,数据与极性无关,因此更易于处理。S/PDIF是从专业音频所用的AES/EBU标准发展而来。二者在协议层上一致,但从XLR到电气RCA插孔或光学TOSLINK的物理连接器发生了改变。本质上,S/PDIF 是AES/EBU格式的消费型版本。S/PDIF接口规范主要由硬件和软件组成。软件通常涉及S/PDIF帧格式,硬件则涉及设备间数据传输所使用的物理连接媒介。用于物理媒介的各种接口包括:晶体管与晶体管逻辑、同轴电缆(以RCA插头连接的75Ω电缆)和TOSLINK (一种光纤连接)。

流媒体传输协议及音视频编解码技术

1.1 音视频编解码技术 1.1.1 MPEG4 MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。 目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD 等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现, MPEG3只能是死于襁褓了。MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性 MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1、MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV对象是MPEG4标准的基本内容。 在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。 由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高

相关主题