搜档网
当前位置:搜档网 › 多视点视频编码的研究进展

多视点视频编码的研究进展

多视点视频编码的研究进展
多视点视频编码的研究进展

多视点视频虚拟视点合成技术综述【文献综述】

毕业论文文献综述 电子信息工程 多视点视频虚拟视点合成技术综述 摘要:随着多视点视频研究的发展,各种多视点视频编码技术的研究都成为热点领域,其中虚拟视点合成技术尤为关键,本文简要概括了多视点视频编码技术的发展历程和虚拟视点合成算法的研究现状,一种高效的虚拟视点插值算法是高质量图像合成的基础。本文重点介绍了几种现在虚拟视点插值算法并做了比较,由比较分析出每种算法的优缺点。 关键词:多视点视频;视频编码技术;虚拟视点合成; 1多视点视频编码技术简介 多视点视频(Multi-view Video)是一种新型的具有立体感和交互操作功能的视频,通过在场景中放置多台摄像机,记录下多个视点数据,提供给用户以视点选择和场景漫游的交互能力。多视点视频将在自由视点视频、立体电视、立体视频会议、多视点视频点播等数字娱乐领域有着非常广泛的应用前景。随着相机数目的增加, 多视点视频的数据量也成倍增加。系统的一个挑战就是研究实现一种高效的多路编码传输机制,从而对数据进行高效地压缩以便存储和传输视频序列。 多视序列包含同一个场景内多个视点的画面,画面之间存在很高的相关性,如何消除这些冗余,是多视点视频编码的一个重要问题。特别是,对于多视点视频编码来说,在消除空间冗余的同时,还要消除时间上的冗余。因此,多视点视频编码方法包含传统视频编码方法的内容,但它比传统编码方法更加复杂。利用视差估计消除多个视点间空间冗余、预测编码以及虚拟视点图像的合成是其中比较重要的技术[1]。 2多视点视频技术研究发展概况 目前视频和音频结合的新型媒体的主要特点是具有交互能力。用户在观看的过程中不再是一个被动的消费者,取而代之的是用户可以通过某种方式进行选择他想观看场景远近和角度[2]。它的发展经历了以下历程: (1)最早出现的具有此功能的媒体是在图像处理中,它提供了纹理的三维模型(textured three-dimensional models)来实现上述功能,被称为3D-model[2]。这种方式的缺点在于需要预先生成物体和场景的三维模型,而且如果要求模型具有相片一样的真实感或者场景是动态改变的话,那么模型的生成是十分困难的。 (2)与此相反,基于图像的合成(image-based rendering,以下简称IBR)着重在从图像中生成新的虚拟图像,取代使用三维模型。IBR起源于光学函数。函数具有七个参数分别代表了每一条光

基于颜色变化曲线的多视点视频颜色校正方法研究[设计+开题+综述]

开题报告 电子信息科学与技术 基于颜色变化曲线的多视点视频颜色校正方法研究一、选题的背景与意义 MPEG组织2001年12月提出了3DAV(3D audio iedo)的概念,在现有视频标准的基础上进行了扩展,其中一个应用场合即为自由视点视频,自由视点在三维电视和自由视点电视上有很好的应用前景。从此,自由视点视频的研究深受国内外研究者的关注。 同时,在实际中由于场景光照,拍摄角度及摄像机参数等因素的影响,造成视点间的亮度和色度不一致,这种差异使得视点间的相关性减弱,用视点间预测时不能够有效的去除视点间冗余,进而影响后续编码的效率。因此,对视点间颜色的差异性进行校正是自由视点视频编码的重要研究内容之一。在2005年法国尼斯召开的MPEG会议上也提交了相关草案。 本文通过对颜色校正基本理论的学习研究,选用颜色信息为目标特征,试图在C中实现基于颜色变化曲线的校正方法。对源图像和目标图像进行处理,通过构造颜色变化曲线,最终最终实现多画面的颜色一致性。 二、研究的基本内容与拟解决的主要问题: 文章着眼于多视点图像中存在的颜色不一致问题,涉及校正方法上的创新。在以参考图像为基准的前提下,完成颜色校正方法进一步发展的工作。同时,在此基础下,提出颜色校正可能的发展趋势方向。 本文试图从下面几个方面出发来对颜色校正方法进行探讨: (1)前置处理步骤:先对源图像和参考图像进行分析,完成颜色空间的转换,通过固定比率的方法标注源影像和参考影像的关键帧,同时借助于传统的颜色校正方法实现关键帧的校正。

(2)校正图像的产生:借助于关键帧的统计信息,以线性内插、抛物线内插和三次样条函数为基础得到参考影像中间帧的统计信息,再次利用传统的颜色校正方法完成对关键帧的校正。 (3)后续处理步骤:基于实验所得到的结果,分别利用一定的主客观评价方法来对校正的结果进行验证,并且检查是否通过颜色校正产生了色彩溢位问题。 三、研究的方法与技术路线: (1)文献研究法:大量阅读相关文献,学习已有的理论和分析方法,根据论文的研究对象选取合适的理论进行整合和创新。

视频监控常见编码格式

视频监控常见的视频编码格式: CIF、QCIF、4CIF、D1、MPEG-4、H.264、M-JPEG等。 备注: 1.NTSC和PAL属于全球两大主要的电视广播制式,但是由于系统投射颜色影像的频率不一样而有所不同。 NTSC是National Television Standards Committee的缩写,意思是“(美国)国家电视标准委员会”。NTSC负责开发一套美国标准电视广播传输和接收协议。此外还有两套标准:逐行倒相(PAL)和顺序与存色彩电视系统(SECAM),用于世界上其他的国家。NTSC标准从他们产生以来除了增加了色彩信号的新参数之外没有太大的变化。NTSC信号是不能直接兼容于计算机系统的。其标准主要应用于日本、美国,加拿大、墨西哥等等。 PAL是Phase Alternating Line (逐行倒相)的缩写。它是西德在1962年制定的彩色电视广播标准,它采用逐行倒相正交平衡调幅的技术方法,克服了NTSC制相位敏感造成色彩失真的缺点。西德、英国等一些西欧国家,新加坡、中国大陆及香港,澳大利亚、新西兰等国家采用这种制式。

NTSC电视标准:每秒29.97帧(简化为30帧),电视扫描线为525线,偶场在前,奇场在后,标准的数字化NTSC电视标准分辨率为720*480像素, 24比特的色彩位深,画面的宽高比为4:3。NTSC电视标准用于美、日等国家和地区。场频为每秒60场,帧频为每秒30帧,扫描线为525行。 PAL电视标准:PAL电视标准,每秒25帧,电视扫描线为625线,奇场在前,偶场在后,标准的数字化PAL电视标准分辨率为720*576, 24比特的色彩位深,画面的宽高比为4:3, PAL 电视标准用于中国、欧洲等国家和地区,PAL制电视的供电频率为50Hz,场频为每秒50场,帧频为每秒25帧,扫描线为625行,图像信号带宽分别为4.2MHz、5.5MHz、5.6MHz等。 2.目前监控行业中主要适用QCIF(176 x 144)、CIF(352 x 288)、HALF D1(704 x 288)、D1(704 x 576)等几种分辨率。针对安防行业的网络摄像机主要生产厂家,采用最多的编码方案是MPEG-4和M-JPEG,采用H.264的也越来越多。标清监控中用得最多的是D1路式。 3.H.264和MPEG-4由于能够在低带宽下传送高质量的图像,目前在电信全球眼业务和网通宽世界业务的视频码流格式被采用,尤其是H.264。 4.所谓标清,是物理分辨率在720p(1280*720)以下的一种视频格式。而物理分辨率达到720p以上则称作为高清(High Definition),简称HD。所谓全高清(FULL HD),是指物理分辨率高达1920 x 1080显示(包括1080i和1080P),其中i(interlace)是指隔行扫描;P (Progressive)代表逐行扫描,这两者在画面的精细度上有着很大的差别,1080P的画质要胜过1080i。对应地把720称为准高清。很显然,由于在传输的过程中数据信息更加丰富,所以1080在分辨率上更有优势,尤其在大屏幕电视方面,1080能确保更清晰的画质。

4.图像视频编码与传输研究

项目名称:图像/视频编码与传输研究 拟报奖种:自然科学奖 完成人:赵耀(北京交通大学),袁保宗(北京交通大学),朱策(成都电子科技大学),朱振峰(北京交通大学),白慧慧(北京交通大学) 项目简介: 在信息化社会中,图像视频等视觉信息作为当今最为重要的数据类型,对于人类的认知起着至关重要的作用。与其相关的应用领域不断拓宽,已广泛应用于社会生活和国家安全的各个领域。随着网络技术的迅猛发展和3G通信的兴起,人们渴望通过各种终端设备,以有线或无线接入的方式,随时随地享受高质量的图像视频服务。对于日益增长的海量图像/视频信息如何高效编码与传输是必须解决的关键科学问题。然而,随着研究的深入,传统编码方法逐渐显现出许多不足:首先,没有充分考虑视觉特性,在高压缩比时图像易出现严重的方块效应;其次,着重于提高压缩性能,在网络拥塞、网络异构性导致传输错误出现时,解码质量会严重下降;另外,大量低能耗视频设备如3G智能手机等,要求编解码低复杂度来适应其有限的运算能力和电能,传统视频编码在编码端采用复杂的运动估计,已不能满足新兴的应用需求。为此,有必要研究新一代具有编码效率高、传输可靠性强及编码复杂度低的图像视频编码与传输技术。 本项目针对图像/视频编码与传输的理论和关键技术展开研究,研究内容包括:结合人类视觉特性的图像/视频编码,图像/视频编码的高效性研究,异构网络下的图像/视频的可靠传输以及视频编码中的快速运动估计与匹配等,取得的重要科学发现包括:在高效压缩方面,将人眼的视觉特性成功运用于图像/视频编码中,利用视觉的掩盖效应及视觉与分形描述的内在联系,有效去除图像块间的视觉冗余,进一步提高分形图像编码的压缩性能和编码速度。在可靠传输方面,充分考虑实际的网络性能如信道丢包率、误码率、传输时延等问题,从跨层优化的角度研究多描述编码的关键技术,进一步提高传输的可靠性。在降低编码复杂度方面,在广泛应用的国际视频编码标准框架下,研究快速的运动估计与匹配,有效提高了编码的速度;此外,研究新兴的分布式视频编码技术,更好地满足低能耗终端设备的视频通信需求。 在本项目中,主要完成人发表的8篇代表作被同行他引661次,其中SCI 他引294次;发表的20篇主要论文专著(含8篇代表作)被同行他引1654次,其中SCI他引726次,并获得了图像视频领域内诸多重要学者及顶级期刊编委的积极评价。本项目获得国家发明专利授权11项,并获得国际专利授权2项。所完成的3个国家自然科学基金课题,经基金委评估均为优秀。所完成的863计划,经科技部评估为圆满完成。本项目的部分研究成果曾获2009年度北京市科学技术奖一等奖等省部级奖励,并在我国海军计划项目、国家安全部项目及兵工研究所项目中获得应用,显著改善了系统性能,获得了良好的社会和经济效益。 8篇代表作列表: 1. Zhao, Y; Yuan, BZ; A New Affine Transformation: Its Theory and Application to Image Coding, IEEE Trans. on Circuits and Systems for Video Technology, 1998, Vol.8, 269-274 2. Yu, B; Yuan, BZ; A More Efficient Branch and Bound Algorithm for Feature Selection, Pattern Recognition, 1993, Vol.26, 883-889 3. Li, M; Yuan, BZ; 2D-LDA: A Novel Statistical Linear Discriminant Analysis for Image Matrix, Pattern Recognition Letters, 2005,Vol.26, 527-532

视频编码标准汇总及比较

视频编码标准汇总及比较 MPEG-1 类型:Audio&Video 制定者:MPEG(Moving Picture Expert Group) 所需频宽:2Mbps 特性:对动作不激烈的视频信号可获得较好的图像质量,但当动作激烈时,图像就会产生马赛克现象。它没有定义用于额外数据流进行编对码的格式,因此这种技术不能广泛推广。它主要用于家用VCD,它需要的存储空间比较大。 优点:对动作不激烈的视频信号可获得较好的图像质量。 缺点:当动作激烈时,图像就会产生马赛克现象。它没有定义用于额外数据流进行编对码的格式,因此这种技术不能广泛推广。 应用领域:Mixer 版权方式:Free 备注:MPEG-1即俗称的VCD。MPEG是ISO/IEC JTC1 1988年成立的运动图像专家组(Moving Picture Expert Group)的简称,负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作。MPEG-1制定于1992年,它是将视频数据压缩成1~2Mb/s的标准数据流。对于清晰度为352×288的彩色画面,采用25帧/秒,压缩比为50:1时,实时录像一个小时,经计算可知需存储空间为600MB左右,若是8路图像以每天录像10小时,每月30天算,则要求硬盘存储容量为1440GB,则显然是不能被接受的。 --------------------------------------------------------------------------------------------- MPEG-2

类型:Audio&Video 制定者:MPEG(Moving Picture Expert Group) 所需频宽:视频上4.3Mbps,音频上最低的采样率为16kHz 特性:编码码率从每秒3兆比特~100兆比特,是广播级质量的图像压缩标准,并具有CD 级的音质。MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道。作为MPEG-1的兼容性扩展,MPEG-2支持隔行扫描视频格式和其它先进功能,可广泛应用在各种速率和各种分辨率的场合。但是MPEG-2标准数据量依然很大,不便存放和传输。 优点:MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道,具有CD级的音质。可提供一个较广的范围改变压缩比,以适应不同画面质量、存储容量以及带宽的要求。支持隔行扫描视频格式和其它先进功能,可广泛应用在各种速率和各种分辨率的场合。 缺点:压缩比较低,数据量依然很大,不便存放和传输,如用于网络方面则需要较高的网络带宽,因此不太适合用于Internet和VOD点播方面。 应用领域:Mixer 版税方式:按个收取(最初的收费对象为解码设备和编码设备,中国DVD制造商每生产一台DVD需要交纳专利费16.5美元。向解码设备和编码设备收取的专利授权费每台2.5美元) 备注:MPEG-2是其颁布的(活动图像及声音编码)国际标准之一,制定于1994年,是为高级工业标准的图像质量以及更高的传输率而设计,为了力争获得更高的分辨率 (720×486),提供广播级视频和CD级的音频,它是高质量视频音频编码标准。在常规电视的数字化、高清晰电视HDTV、视频点播VOD,交互式电视等各个领域中都是核心的技术之一。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。MPEG-2的音频编码可提供左、右、中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道。我们平时所说的DVD就是采用MPEG-2编码压缩,所以可有8种语言的配音。除了作为DVD的指定标准外,MPEG-2的应用前景非常的广阔,

面向多视点视频的虚拟视点插值方法研究【开题报告】

毕业论文开题报告 电子信息工程 面向多视点视频的虚拟视点插值方法研究 一、课题研究意义及现状 多视点视频是未来数字媒体的研究热点方向,是未来数字信息时代生活的基础和决定性技术。多视点视频是由多个摄像机从不同位置对准同一场景拍摄得到的一组视频信号,不同的摄像机拍摄角度不同,这些不同角度的场景图像都会送到用户终端,用户在使用时可以根据需要选择不同的视角进行观看。多视点视频将在数字娱乐、教育培训、医疗等交互式多媒体应用领域具有广泛的应用前景。所以,多视点视频的相关研究都具有非常重要的现实意义。 多视点视频的数据量相对于单视点视频来说非常大,如果对每个视点采集到的视频数据都进行编码存储,显然视频的容量会很大,这就要求虚拟现实系统能够根据几个视点的图像参数值预测出中间位置的虚拟视点的视频数据。这就产生了虚拟视点图像的合成技术。虚拟视点图像的合成是未来多视点视频中的关键技术,虚拟视点图像合成就是根据已经得到的视点图像,由各个视点图像间的参数确定视点图像之间的相关性,利用这些相关性,通过一种视点插值算法来产生虚拟视点或者任意的中间视点图像的过程。多视点视频编码中的视点插值的目的是通过增加虚拟视点来作为参考视点,从而在视点数据压缩时只保留一些关键视点的图像,而对其他视点采用预测的的方法来解决多视点视频数据量过大的问题,提高编码效率。 目前的虚拟视点插值算法主要有两种:一种是Droese提出的基于视差信息的插值算法,其中又分为基于区域、基于能量、基于相位和基于网线等四种视点插值方法,其原理是由两个图像的相关性和目标视点参数来完成插值;第二种是Taguchi提出的基于深度信息插值算法,它似乎通过给定的视点位置参数信息和图像深度信息来得到预测像素和源像素的位置对应关系。基于深度图的插值算法与3D-Warping技术相结合可以生成任意位置的虚拟视点图像,与传统的基于视差信息插值算法相比大大减少了参考图像的数目,为实时生成高质量的虚拟视点图像提供了有效的技术支持。但现有的基于深度图的图像绘制(Depth image-based rendering,DIBR)视点插值算法只是简单的将参考图像通过投影变换映射到虚拟图像中,并没有考虑到摄像机旋转、平移等变化造成的如像素重叠、虚拟图像空洞及场景遮挡等问题,本文拟提出一种改进的基于深度图的插值算法,在现有的算法基础上进行优化,使上述问题得到解决,以合成更高质量的虚拟视点图像。 二、课题研究的主要内容和预期目标 研究内容: 面向多视点视频的虚拟视点插值技术。研究基于多视点的插值技术。 具体要求: 1、了解多视点视频编码的一些基础知识。

视频图像帧内编码

视频图像帧内编码 --国立华侨大学 一实验目的 1.了解多媒体通信中图像压缩技术 2.熟悉视频帧内压缩编码过程 3.掌握二维DCT变换算法 二实验原理 视频帧内编码有多种模式,最基本的是基于8×8块的DCT顺序编码,将一帧图像分为8×8的块,然后按照从左至右、自上而下的顺序,对块进行DCT、量化和熵编码。其编、解码框图如下: 基于DCT的编码器 图1 基于DCT的顺序编码框图 DCT解码器 图2 基于DCT的顺序解压缩框图 视频帧内压缩编码算法的主要步骤: 1)正向离散余弦变换(DCT)。 2)量化(quantization)。 3)Z字形扫描(zigzag scan)。 4)使用差分脉冲编码调制(differential pulse code modulation,

DPCM)对直流系数(DC)进行编码。 5)使用行程长度编码(run-length encoding,RLE)对交流系数(AC) 进行编码。 6)熵编码(entropy coding)。 三实验过程 实验利用MATLAB仿真软件来实现 程序:I=imread('D:\p_large_iUNl_627c0001a3192d12.bmp') figure(1),imshow(I); title('原图像') I=rgb2gray(I); %将真彩色RGB图像转换成灰度图像 figure(11),imshow(I); title('灰度图像') I=im2double(I);% double(I)是将I变成double类型的。im2double(I)是将图象变成double类型的再归一化,比如对于8比特图象,就是将原来像素值除以255。 fun_1=@dct2; A_1=blkproc(I,[8 8],fun_1); figure(2),imshow(A_1); title('离散余弦变换后的图像') T=[0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.3536 0.4904 0.4157 0.2778 0.0975 -0.0975 -0.2778 -0.4157 -0.4904 0.4619 0.1913 -0.1913 -0.4619 -0.4619 -0.1913 0.1913 0.4619 0.4157 -0.0975 -0.4904 -0.2778 0.2778 0.4904 0.0975 -0.4157 0.3536 -0.3536 -0.3536 0.3536 0.3536 -0.3536 -0.3536 0.3536 0.2778 -0.4904 0.0975 0.4157 -0.4157 -0.0975 0.4904 -0.2778 0.1913 -0.4619 0.4619 -0.1913 -0.1913 0.4619 -0.4619 0.1913 0.0975 -0.2778 0.4157 -0.4904 0.4904 -0.4157 0.2778 -0.0975] A_2=blkproc(A_1,[8 8],'x./P1',T); figure(3),imshow(A_2); title('量化后的图像') A_3=blkproc(A_2,[8 8],'x.*P1',T); figure(4),imshow(A_3); title('逆量化后的图像') fun_2=@idct2;

多视点视频编码技术及其研究现状

多视点视频编码技术及其研究现状 2012-01-26 21:50:54| 分类:默认分类|举报|字号订阅 多视点视频编码技术及其研究现状 上海市浦东科技信息中心孔佳薇摘编2010-07-22 关键字:多视点视频编码视频编码MVC浏览量:908 多视点视频是一种新型的具有立体感和交互操作功能的视频,通过在场景中放置多台摄像机,记录下多个视点数据,提供给用户以视点选择和场景漫游的交互能力。多视点视频将在自由视点视频、立体电视、立体视频会议、多视点视频点播等数字娱乐领域有着非常广泛的应用前景。随着相机数目的增加,多视点视频的数据量也成倍增加。系统的一个挑战就是研究实现一种高效的多路编码传输机制,从而对数据进行高效地压缩以便存储和传输视频序列。国际标准化组织如MPEG已经充分意识到多视点视频这一新的数字媒体的重要性和应用前景,正在着手制定这方面的标准。 1、多视点视频概念 多视点视频指的是由不同视点的多个摄像机从不同视角拍摄同一景得到的一组视频信号,是一种有效的3D视频表示方法,能够更加生动地再现场景,提供立体感和交互功能。多视点视频可广泛应用于任意视点视频、三维电视、交融式会议电视、远程医学诊疗、虚拟现实以及视频监视系统等多种正在兴起的多媒体业务。 与单视点视频相比,多视点视频的数据量随着摄像机的数目增加而线性增加。巨大的数据量已成为制约其广泛应用的瓶颈,为此,ITU-T 和MPEG 的联合视频组(JVT,joint video team)提出了多视点视频编码(MVC,multiview video coding)的概念。MVC主要致力于多视点视频的高效压缩编码,是未来视频通信领域中的一项关键技术,也是国际视频标准化组织正在研究的热点问题。 2、多视点视频编码发展过程 MPEG早于2001年专门成立3DA V(3D audio and 3D video) ad hoc组研究3DA V 的典型应用场景和可标准化的内容。该小组于2003年7月发布征求意见稿,详细给出了3DA V的需求分析和应用前景,希望引起工业界的关注。在2004年3月第68次MPEG会议上,3DA V ad hoc组分析各研究机构的回应文档发现任意视点视频受到工业界的普遍关注,决定对任意视点视频的关键模块——多视点视频编码进行标准化。在本次会议上,该小组发布MVC征求验证文档,旨在初步验证MVC编码效率的提升空间。 2005年1月召开的第71次MPEG会议共收到7项技术提案。比较结果表明MVC 的编码效率远高于基本编码方案,从而验证了MVC标准化的必要性和可行性。在此基础上,3DA V ad hoc组决定发布MVC 征求草案文档(call for proposals on multiview video coding)。该文档的发布标志着MVC标准化正式开始。第75次MPEG会议文档W7779给出了所提技术与基本编码方案的比较结果。结果表明提出的新技术能够显著提高MVC的编码效率。在本次会议上,3DAV Ad hoc组决定将MVC为H.264/A VC的第四个扩展标准。

新一代视频编码技术---H.265HEVC高效视频编码技术

新一代视频编码技术--- H.265/HEVC高效视频编码技术 音视频信息包含图像、语音、文字等各种信息,是人与人之间沟通的重要媒介,因此以音视频为核心的视频会议、视频指挥、视频监控、可视电话等各种音视频系统成为现代各个行业和领域信息化建设领域的重点。然而,高清晰的实时图像数据量巨大,以图像分辨率为1920X1080,颜色取样深度为24bit,每秒帧数为60帧的实时高清视频为例,未经压缩处理的图像通过网络传输每秒的流量将达到355.957MB。 为了实现在有限带宽下传输如此高数据量的视频图像,音视频应用系统通过使用编码设备将图像进行压缩编码大幅降低数据量后再通过网络传输,目前这些编码设备主要采用H.264编码技术。H.264又称MPEG-4part10,由VCEG和MPEG联合组成的JVT (JointVideoTeam)于2003年3月正式发布,经过十余年的发展,H.264已被业内的厂商广泛的采纳和使用。 H.264采用帧内、帧间预测技术,高精度、多模式的位移估计,整数变换编码以及先进的量化处理和滤波处理,在同等保真条件下,大幅提高了编码效率。但是,H.264也存在一定的局限性,例如,由于图像分辨率的大大增加,单个宏块所表示的图像内容信息大大减少,H.264所采用的4×4或8×8宏块经过整数变换后,低频系数相似程度也大大提高,出现大量冗余,导致H.264编码对高清视频的压缩效率明显降低,而目前720P,1080P高清图像已经成为音视频应用系统的主流,未来图像分辨率将达到4K(4096 x 2160)、8K(8192×4320),H.264已经无法满足用户对高清视频图像传输的需求。 新一代视频编码技术---H.265/HEVC高效视频编码技术的出现为解决这问题提供了手段。 H.265/HEVC在现有的主流视频编码标准H.264上保留了一些较为成熟的技术和继承其现有的优势,同时采用了基于四叉树结构的编码分割、预测编码技术等先进的编码技术,视频压缩效率将比H.264提高大约一半,可以轻松实现在低带宽下实现1080P图像的传输,同时支持4K、8K高清图像的传输。业内厂商纷纷开展了H.265/HEVC编码产品的研发和应用,例如武汉兴图新科已率先实现H.265/HEVC编码器的规模化应用,推出支持HDSDI 、DVI、HDMI 等各种视频制式的H.265/HEVC高清编码器,该型号的编码器在同等图像质量下,图像数据量只有MPEG2的1/16,MPEG4的1/6,H.264的1/2,同时实现在高达25%丢包率的不稳定网络环境下稳定传输。随着用户对高清和超高清视频的需求,基于H.265/HEVC标准的编码器将得到广泛的应用。

多视点视频的编码技术综述

多视点视频的编码技术综述 摘要:阐述了多视点视频(MVC)的几种编码技术,包括其发展过程和主要原理并且比较这几种方法的优劣,以及提出了MVC在未来的可能的发展方向和研究思路。 关键词:综述;多视点视频编码;算法;3d场景;时间相关性;视点间相关性;视差估计;运动估计 1 引言: 多视点视频指的是由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号,是一种有效的3D视频表示方法,能够更加生动地再现场景,提供立体感和交互功能。多视点视频可广泛应用于任意视点视频、二维电视、交融式会议电视、远程医学诊疗、虚拟现实以及视频监视系统等多种正在兴起的多媒体业务。[1] 与单视点视频相比,多视点视频的数据量随着摄像机的数目增加而线性增加。巨大的数据量己成为制约其广泛应用的瓶颈,为此,ITU-T和MPEG的联合视频组(JVT, joint video team)提出了多视点视频编码(MVC, multiview videocoding)的概念。MVC主要致力于多视点视频的高效压缩编码,是未来视频通信领域中的一项关键技术,也是国际视频标准化组织,在研究的热点问题。[1] 多视点视频最为显著的特点在于视间的相关性。在传统的单视点视频编码中,通常采用去除时间相关性和空间相关性的混合编码方式,运动估计(Motion Estimation)/运动补偿(Motion Compensation}、帧内预测、帧间PB预测、多参考帧(Multi-reference frames)预测,DCT或DWT变换等是最为常用的编码技术,这些技术也被众多视频编码国际标准如H.26X[11]/ MPEG-X所采用。MVC除采用传

高效视频编码标准中的关键技术概述

本栏目责任编辑:唐一东 多媒体技术及其应用高效视频编码标准中的关键技术概述 张玢 (渭南师范学院数学与信息科学学院网络工程技术中心,陕西渭南714000) 摘要:高效视频编码标准(High Efficiency Video Coding)是视频压缩领域继H.264/AVC 之后的又一重大突破,主要面向高 清电视(HDTV )以及视频编解码系统,文章从HEVC 基本体系出发,较全面地介绍了HEVC 在编码结构、自适应样点补 偿、自适应环路滤波以及并行化设计方面采用的关键技术。 关键词:视频编码;H.265/HEVC ;变换结构 中图分类号:TP391文献标识码:A 文章编号:1009-3044(2013)18-4316-03 Research on Core Techniques in the High Efficiency Video Coding ZHANG Bin (Center of Network Engineering Technology,College of Mathematics and Information Science,Weinan Normal University, Weinan 714000,China ) Abstract:As the successor to H.264/AVC,the High Efficiency Video Coding standard targets at next-generation HDTV dis? plays and video compression systems.The encode architectures and some of the key technologies used in the new model are in? troduced in this paper.Those key technologies involve with code structure,sample adaptive offset,adaptive loop filter and paral? lel structure. Key words:video coding;H.265/HEVC;transforming structure 国际电联(ITU)已正式批准通过了高效视频编码标准H.265/HEVC(High Efficiency Video Coding),性能比H.264压缩标准有了很大的改善。H.265/HEVC 标准对压缩技术进行了改进,旨在有限带宽下传输更高质量的网络视频,H.265标准也同时支持超高清视频:4K (4096×2160)和8K(8192×4320)。可以说,H.265标准让网络视频跟上了显示屏“高分辨率化”的脚步。1HEVC 编码架构 视频编码压缩的基本原理,是充分利用时间、空间的相关性,尽可能的去除冗余信息。目前通常采用混合视频编码框架,即按照相关原则将一帧数据划分为若干块,通过预测、变换、量化、熵编码等一系列算法来实现视频压缩。 与H.264/AVC 相似,H.265/HEVC 的编码架构主要包含:帧内预测、帧间预测、转换、量化、去区块滤波器、熵编码等模块,但与H.264基于宏块不同,HEVC 整体被分为了三个基本单位:编码单位(CU ,coding unit )、预测单位(PU ,predict unit)和转换单位(TU ,transform unit)。2HEVC 使用的优势技术 H.265/HEVC 标准在之前压缩标准的基础上进行了技术改进,有以下基本算法:图像与声音分解与合成、图像与声音前处理、小波子带熵速率控制、小波子带熵量化与反量化、小波子带邻域交叉降维等,这些算法虽然复杂,但将压缩效率提升了一倍以上,该标准具体有以下几个方面的优势技术。1)编码结构灵活与H.264的4×4和8×8变换块相比,H.265/HEVC 引入了更大的宏块类型,扩充到16×16、32×32甚至于64×64的变换和量化算法,目的在于减少高清数字视频的宏块个数,描述宏块内容的参数信息也相对减少,以便于高分辨率视频的压缩。 为了提高视频的编码压缩效率,H.265/HEVC 提出了超大尺寸四叉树编码结构,该编码结构更加灵活,并使用CU ,PU 和TU 3个概念来描述整个编码过程。 收稿日期:2013-06-03 基金项目:渭南师范学院研究生专项基金项目(12YKZ048) 作者简介:张玢(1986-),女,陕西渭南人,教师,硕士研究生,主要从事嵌入式开发研究。 4316

视频文件格式和视频编码方式区别

目前网上的各种视频格式可以说是泛滥成灾,加上各个PMP(Portable Media Player,便携式媒体播放器)生产厂家的对自己产品在功能方面的炒作,使得很多人对视频格式的名称都是一头的雾水。 经常有些童鞋问我类似下面的问题。 A问我说:“我的MP4分明写着能播放AVI吗?为什么这一个AVI文件就播放不了?” B问:“我的MP4支持Mpeg-4啊,为什么Mp4文件不能播放呢?” 好的,下面我从最基本的概念给大家解释一下,顺便回答这两个问题 首先大家要清楚两个概念,视频文件格式和视频编码方式。 视频文件格式一般情况下从视频文件的后缀名就能看出来,比如AVI,Mp4,3gp,mov,rmvb等等。这些格式又叫做容器格式(container format),顾名思义就是用来装东西的,你可以把它想象成为一个便当盒,或者野餐篮(兄弟,你没吃早饭吧)。 通常我们从网上下载的电影都是有声音的(废话,难道你只看默片!众人扔香蕉皮),所以容器格式中一般至少包含有两个数据流(stream),一个视频流,一个音频流,就好比是一个便当盒里装着的配菜和米饭。 视频编码方式则是指容器格式中视频流数据的压缩编码方式,例如Mpeg-4,,,等等。而视频数据采用了何种编码方式是无法单单从文件格式的后缀上看出来的。就是说你无法从一个盖着盖子的便当盒外面看出里面装了什么配菜。 如果你想播放一个视频文件,第一步你的播放器(不论是软件的还是硬件的)要能够解析相应的容器格式,这一步也叫做解复用(demux),第二步你的播放器要能够解码其中所包含视频流和音频流。这样影片才能播放出来。 打个不太恰当的比方,播放器好比你雇用的一个试菜员,由他来品尝便当(视频文件),然后告诉你便当里装了什么东西。(没天理阿!我想自己吃,好的当然可以,0x00 00 01 B6 05 FF 36 1A 50 …… ……,俄~) 所以试菜员首先要懂得如何打开便当盒,还要知道吃的出来便当盒里装了什么配菜,这样你才能获得你想要的信息。 回过头来看前面的两个问题,用以上的比喻翻译一下。 问题A,我的试菜员能打开AVI这种便当的,为什么我不能知道里面装了什么? 回答很简单,虽然他能够打开便当,但是吃不出里面的东西是什么。理论上没有一个播放器能够播放所有的AVI格式的电影,因为你不知道我会往里面放什么配菜。 问题B,我的试菜员吃过Mpeg-4这种牛排阿,为什么不能打开Mp4这种便当盒呢? 这个问题通过翻译之后看起来已经不是问题了,Mpeg-4是视频编码方式,而Mp4是容器格式,两者本来就不是一个范畴里的东西。 好了下面简单介绍一下流行的视频格式。 AVI是音频视频交错(Audio Video Interleaved)的英文缩写,它是Microsoft公司开发的一种数字音频与视频文件格式,允许视频和音频交错在一起同步播放。 AVI文件的格式是公开并且免费的,大量的视频爱好者在使用这种文件格式。很多PMP 唯一能支持的格式就是AVI格式,一般的PMP都带有可以转换其他格式视频成为AVI格式的软件。 AVI文件采用的是RIFF(Resource Interchange File Format,资源互换文件格式)文件结构,RIFF是Microsoft公司定义的一种用于管理windows环境中多媒体数据的文件格

4.图像、声音和视频的编码

信息技术第一部分信息技术基础 [学案4]图像、声音和视频的编码 学习目标 1.初步了解多媒体的编码方式 2.理解位图和矢量图的概念。 3.掌握声音、图片、视频存储容量的计算的公式并学会计算。 学习重点 1.声音容量的计算 2.图片容量的计算 3.视频容量的计算 学习难点 声音、图片、视频容量的计算 课堂导入 1、录制一段时长1分钟、采样频率为44.1kHz、量化位数为16位、双声道的Wave格式音频,其存储容量约为() A.34MB B. 84MB C.3GB D.10.1MB 2、下列关于位图与矢量图说法错误的是() A.位图是通过对“像素”的描述来呈现图像效果的 B.矢量图是用一组指令集合来描述的 C.位图适合表现层次和色彩比较丰富的图像 D.矢量图不能转换为位图 3、图像文件“风景.bmp”的属性窗口如图所示: 该图像的存储容量约为() A.1.79MB B.14.3MB C.1.52MB D.52.1MB 4、一段时长为1分钟、24位色、分辨率为1920*1080、帧频为30fps的HDTV视频,若没有压缩,它的存储量大约是() A.177.9MB B.10.4GB C.111MB D.83.4GB

问题探讨 1.声音的编码 通过采样和量化两个过程实现声音模拟量的数字化。采样频率越高,量化位数越高,声音的音质越好,占用的存储空间越大。 未经压缩的音频存储空间的计算公式: 声音存储容量= 未经压缩的音频格式:W A V 2.图片的编码 位图和矢量图 (1)是指用若干二进制位来定义图像中每个像素的颜色和亮度。 (2)用矢量表示图的轮廓,用数学公式描述图中所包含图形元素的形状 和大小。图片素材的加工和处理以位图为主。 位图放大会失真,矢量图放大不会失真。 图片由像素组成,像素越多图像越清晰,颜色位数越多色彩越逼真。 未经压缩的图片存储空间的计算公式: 图像存储容量= 未经压缩的图片格式:bmp 3.视频的编码 视频是由连续的画面组成动态图像的一种表示方式。常见的视频数据格式主要有:A VI、MPEG、MOV、DAT和Real等格式;全球主要的电视制式为:PAL、NTSC和SECAM制式,PAL制式是每秒25帧,NTSC制式是每秒30帧。 未经压缩的视频存储空间的计算公式: 视频存储容量= 未经压缩的视频格式:A VI 课堂检测 1、存储一幅640*480像素的黑白图像,需用的存储空间大约是( ) A.300KB B.37.5KB C.1.5MB D. 3MB 2、一幅400*320像素的黑白位图图像与一幅同样像素的16色彩色位图图像相比,所需的存储空间( ) A. 后者肯定大于前者 B.前者肯定大于后者 C.完全相同 D.无法判定其大小关系 3、汉字点阵码是一种用黑白两色点阵来表示汉字字形的编码。一个16*16点阵字模的存储容量为() A.1字节 B.16字节 C.32字节 D.64字节 4、某一段音频进行采样,若其他参数都相同,则可使音质最佳的采样频率是() A. 11.025 KHz B.22.05KHz C.32KHz D.44.1KHz 5、下列关于拼音输入法的说法正确的有() ①它用于汉字与机内码相互转换,因此属于交换码②属于音码 ③它是用于汉字的输出显示,因此属于字形码④属于输入码

多视点视频编码去相关颜色校正

第30卷第10期2010年10月 计算机应用 JournalofComputerApplications V01.30No.10 Oct.2010 文章编号:1001—9081(2010)10—2790—04 多视点视频编码去相关颜色校正 潘榕,侯正信,刘昱 (天津大学电子信息工程学院,天津300072) (panmng@tin.edu.cn;zhengxinhou@163.com;liuyu@tju.edu.cn) 摘要:多视点视频编码效率受到各个视点图像之间颜色不均衡的影响。在三色激励值近似线性无关的ldB颜色空间中,对多视点视频数据实现了颜色校正。根据视频序列原始数据的特点,选择合适的变换矩阵,提供了YUV到ldB空间的变换式。为降低不同视点间亮度差异的影响,在块搜索和匹配中结合相关分析法,获取最优匹配块。将匹配块数据变换到从lcc[3衍生的一个线性无关的颜色空间中,采用统计量逼近的方法对数据进行了更简便的校正。结果表明,所校正的数据变换回YUV空间后,主观效果良好,消除了颜色差异,在编码性能上,Y分量平均PSNR提高达1.4dB以上,证明了该颜色校正算法的有效性。 关键词:多视点视频编码;颜色校正;亮度补偿;去相关颜色空间;块匹配 中图分类号:TN919.8文献标志码:A De.correlatedcolorcorrectionformultiviewvideocoding PANRong,HOUZheng—xin,LIUYu (SchoolofElectronicandInformationEngineering,兀nn枷University,Tianjin300072,China)Abstract:Theefficiencyofmuhiviewvideocodingisinfluencedbythecolordiscrepanciesofpicturesindifferentviews.Anewcolorcorrectionmethodwasproposedformuhiviewvideosinthel仪Bcolorspacewhosetristimulusvalueswereapproximatelyirrelevanttoeachother.Accordingtothecharacteristicsoftheoriginaldataofmultiviewvideos,theappropriatetransfonnationmatriceswereselectedtoprovideformulafortransformingdatafromYUVtol仪Bcolorspace.Inordertomitigatetheinfluenceofilluminationchangebetweendifferentviews,correlationanalysiswasintegratedinblock—matchingtosearchforthebestmatchingblocks.Thedataoftheseblockswastransformedintoade—correlatedcolorspacederivedfromled3,andcorrectedwithastatisticapproachingmethodinamoreconvenientway.Theresultsshowthatthesubjectiveeffectissatisfactorywiththeeliminationofcolordiscrepanciesaftercolorcorrection,andintermsofcodingefficiency,theaveragePSNRofYcomponentisupto1.4dB,whichprovestheeffectivenessofthiscolorcorrectionmethod. Keywords:MuhiviewVideoCoding(MVC);colorcorrection;illuminationcompensation;de—con'elatedcolorspace; block—matching 0引言 多视点视频在立体电视、自由视点视频和高性能图像等方面有广泛的应用前景。原始的多视点视频由多个摄像机在不同角度拍摄得到,是多个单视点视频流的组合,数据量庞大。为利于存储和传输,需要研究有效的压缩编码算法对多视点视频进行压缩。现有编码算法如H.264等可有效提取多视点视频视点内的时间和空间冗余,而视点间的冗余则需要根据多视点视频的特点来开发新的算法予以消除。多视点视频的一个特点是各个视点视频之间的颜色(包括亮度)不均衡,包括由于摄像机拍摄角度不同造成的局部颜色差异和摄像机性能不同造成的全局颜色差异。如果能校正视点间的颜色差异,则能有效提高视点间的预测和编码效率。 目前已经开发出了多种对多视点视频进行颜色校正的技术。根据校正的不同时机,主要有预处理颜色校正和编码中颜色校正两种;根据校正的不同方式,主要有全局颜色校正和局部颜色校正两种。文献[1—2]分别提出了两种不同的预处理全局颜色校正算法:其中Fecker等人。1o提出了一种基于直方图匹配的颜色校正算法,将YUV颜色空间变换到RGB颜色空间,以中间视点作为参考视点,调整其他视点的RGB三基色的直方图使之与参考视点匹配,从而得到较好的校正结果;Doutre等人。2o考虑去除不同视点的遮蔽部分对全局校正的影响,采用块搜索方法得到不同视点的匹配块,并用这些匹配块的平均值作为新的参考值,利用三阶多项式结合最小二乘法,使每个视点的YUV值都逼近参考值,从而完成全局颜色校正。文献[3—4]则分别提出了两种编码中颜色校正的方法:其中Hur等人。3o考虑了亮度变化对搜索匹配块的影响,提出了一种新的块匹配准则,并将额外的亮度差值传输给解码端,这种方法是一种局部颜色校正(只针对I,值的亮度补偿)方法;Yamamoto等人。4o使用对应色度表在编码中对视点的每个色度值进行校正,然后传输对应色度表,这是一种全局校正的方法。要特别指出的是,文献[2,4]是在RGB空间而不是在YUV空间中对颜色进行校正,以提高校正效果。2o或者降低校正的算法复杂度。4J。 虽然在RGB空间中进行颜色校正有其优越性(摄像机拍摄所得源数据一般为RGB数据),但不论是YUV还是RGB 收稿日期:2010—04—13:修回日期:2010—06—08。基金项目:国家自然科学基金资助项目(60902063)。 作者简介:潘榕(1983一),男,浙江浦江人,博士研究生,主要研究方向:信息处理、多视点视频编码;侯正信(1945一),男,北京人,教授,博士生导师,主要研究方向:现代数字信号、信息处理、数字图像处理、编码技术、数字视频;刘昱(1976一),男,云南昆明人,副教授,主要研究方向:现代信息理论、图像和视频压缩、HDTV、多媒体系统。 万方数据

相关主题