发布时间:2025-12-09 15:57:45 浏览次数:4
视频处理与压缩是多媒体计算与通信领域的核心主题之一,是连接视频采集传输和视觉分析理解的关键桥梁,也是诸多视频应用的基础。本文从视频处理技术、视频压缩技术、多视点/立体视频压缩以及国内外研究进展四个方面对视频处理与压缩技术进行了汇总。主要针对《视频处理与压缩技术》一文进行总结,对其中涉及的论文和相关提案进行了汇总和整理,方面读者查阅和学习。
视频超分辨率算法分为传统基于信号处理的方法和基于深度学习的方法。
下面从是否使用对齐类方法的角度介绍国际视频超分辨的研究现状。
对齐视频超分辨算法通过网络提取运动信息,使相邻帧与目标帧进行对齐,然后再进行后续重构。该类方法主要采用运动补偿和可变形卷积两种常用的帧间对齐技术。
国外视频超分辨率对齐方法大多采用运动补偿和运动估计技术。运动估计采用光流方法,
运动估计的目的是提取帧间的运动信息,而运动补偿是根据帧间的运动信息进行帧间的矫正操作,使一帧与另一帧对齐。
国际
国内
与对齐方法不同,未对齐方法在重建前不进行帧对齐,分为空间未对齐和时空未对齐两种。
空间非对齐方法不需要帧间的运动估计和运动补偿等对齐操作
空间非对齐方法直接将输入帧输入到2维卷积网络中进行空间特征提取、融合和超分辨率操作,不进行帧间的运动估计和运动补偿等对齐操作。
时空未对齐方法的特点是同时利用输入视频中的时空信息进行超分辨任务
视频恢复是视频处理的关键任务之一,对视频主客观质量提升和下游视觉分析任务具有至关重要的作用。从成像设备捕捉到的降质图像中恢复出富有细节的清晰场景图像是一个值得长期研究的问题,降质模型包括模糊、噪声和天气效应等。
在过去的几年中,用于从静态/动态场景的视频恢复算法已经探索并形式化描述了降质模型的很多固有特性。这些算法主要分为4 类: 基于时域的算法、基于频域的算法、基于低秩和稀疏性的算法以及基于深度学习的算法。
基于时域的方法
基于频域的方法
基于低秩和稀疏的方法
基于深度网络的方法
传统视频编码采用基于块划分的混合编码框架,包括帧内预测、帧间预测、变换、量化、熵编码和环路滤波等技术模块。
编码快划分:H.264/AVC采用基于16x16的块划分,H.265/HEVC中采用了四叉树划分结构,H.266/VVC中,采纳了高通公司(Chen等人,2018a)提出的四叉树、三叉树和二叉树联合的多级划分方式,有效提高了编码框架的灵活性。
帧内预测(利用邻近块之间的空域相关性来消除空域冗余):HEVC 中的帧内预测包含平面( planar) 预测、直流(direct current,DC)预测和角度预测等模式。在帧内预测部分,预测像素滤波技术得到了较多关注。
帧间预测(利用邻近帧之间的时域相关性来消除时域冗余):运动矢量编码消
耗的比特数制约着压缩性能。
变换(作用是去除残差信号的统计相关性,变换过程是可逆的):HEVC中对残差信号进行一次变换,主要包含整数离散余弦变换和整数离散正弦变换两种变换方式。
量化:量化是变换后对变换系数的处理,也是压缩失真的主要来源(量化不可逆,会造成失真)。将变换系数划分为不同的区间,每个区间用一个标号代表,标号数量小于原始数据量,由此达到压缩的目的。Schwarz 等人(2018) 提出一种上下文依赖量化(dependent quantization,DQ) 方式,此方法与HEVC中常用的独立标量量化相比,将变换系数在向量空间中进行更加密集地压缩,可以有效减小原始变换系数与量化后系数之间的差值,从而降低压缩失真。
熵编码:用于去除统计域的冗余,将编码控制数据、量化变换系数、帧内预测数据、运动数据和滤波器控制数据等编码为二进制数进行存储和传输。Lyu等人(2020)提出一种基于扫描区域的系数编码方案,使用一组常数控制量化系数非零的位置,使用率失真优化方法选择最优扫描区域,码率和失真之间达到较好的平衡。
环路滤波:滤波是去除压缩失真的关键技术,可以明显提高重建视频的主客观质量,提高视频压缩的效率。
帧内预测
帧间预测:基于深度学习的帧间预测主要研究如何高效利用视频帧间的时域相关性以及如何将时域与空域进行融合。
上下采样:当传输带宽受到限制时,通常的做法是降低编码前的视频分辨率,并提高解码后的视频分辨率。这种做法称为基于下采样和上采样的编码技术。
熵编码
滤波:基于神经网络的滤波方法可以显著提高编码效率。滤波方法根据是否影响后续编码分为环内滤波技术和后处理技术。
环内方面
后处理方面
编码优化:神经网络为解决复杂编码优化问题提供了新思路,已广泛用于编码过程中的模式决策问题。基于深度学习的编码工具又称为编码优化工具,作用是编码加速和码率控制等,目标是提高编码效率。国际上对编码优化的研究主要集中于将深度网络模型与编码单元划分决策相结合。Kim 等人(2019) 、Paul 等人(2020) 、Galpin等人(2019) 和Su等人(2019a)使用深度神经网络加快视频编码过程中的CU(coding unit)划分过程。Su等人( 2019b) 使用神经网络快速选择变换核以加速AV1的编码过程。
从2017年开始,国际上越来越多的研究人员开始致力于构建端到端的深度学习视频压缩方案。该框架所有模块都是基于深度神经网络实现,可以直接端到端优化率失真目标函数,更容易实现全局最优。
端到端视频压缩根据应用场景分为两类:随机切入场景和低延时场景
随机切入场景:主要基于帧内插的方式进行运动补偿。
低延时场景:主要基于帧外插的方式进行运动补偿。
国内端到端视频压缩方案的研究也是从2017年左右开始,并且取得了一系列研究成果。方案主
要集中在面向低延时的应用场景:
国际
2015年,运动图像专家组和视频压缩专家组联合成立JVET( joint video exploration /expert team) 工作组。
2018年4月,JVET正式将下一代视频压缩标准命名为多用途视频编码(versatile video coding,VVC) ,并于2020 年7 月正式发布标准草案,在PSNR指标下,压缩效率相比于上
一代国际标准H.265/HEVC 提升约36.6%。
同时,MPEG 组织中的三星、华为、高通和Divideon 等公司牵头制定了MPEG-5 EVC( essential video coding) 标准,主要面向超高清、高动态范围和广色域视频内容。EVC 标准的制定方法尝试了不同于以前的标准化制定过程。
多家科技巨头联合成立了开放媒体联盟(alliance for open-media,AOM),致力于推广和研发多媒体的视频编解码技术,为下一代多媒体体验创造新机遇。AOM 联盟于2018年初正式推出了AV1视频压缩标准。受益于联盟多数成员是与视频行业紧密相连的互联网公司、硬件设备厂商、内容供应商和主流浏览器厂商等,行业优势使得AV1 基本做到了主流平台的全覆盖,形成从内容端、产品端到芯片端的完整生态链。
国内
数字音视频编解码技术标准工作组( audio video coding standard,AVS) 于2017年12 月决定开展下一代视频编码标准( 即AVS3 标准) 的制定,分为两阶段;
第1 阶段从2018 年3 月到2019年6月,制定面向复杂度优先的应用,性能相较于2014年制定完成的上一代视频编码标准AVS2 提升约30%。
第2 阶段从2019 年6 月到2021 年3 月,目标是编码效率超过VVC标准。
3DoF(degree of freedom)是全景视频,3DoF+视频是在全景之外,还支持用户在3个空间维度上有限范围的变化,一个典型的例子就是坐在椅子上观看场景,允许头部在一定范围内运动。
从H.264/AVC 时期就开始有多视点视频编码(multiview video coding,MVC)的研究;
3D-HEVC 是一个具有标志性意义的3维视频编码标准,采纳了许多可以有效提升编码效率的关键技术;
在2018 年的3DTV 会议上,Fachada等人(2018)提出一种基于深度图的虚拟视点合成技术,可以运用于6 自由度(6DoF)和360视频(3DoF+)的立体全景视频中,通过增加参考视图的数量克服了诸如遮挡、相机轴的切向曲面和低质量深度图中的瑕疵等问题。
国内,AVS 工作组针对这些需求建立了AVS-3D视频编码框架,具体在编码端编码稀疏的若干视点,在解码端通过视点合成技术生成任意数量的虚拟视点。
今年来国内外学术机构和工业界对视频处理关注度显著提高:
国外 V.S 国内
这些标准技术框架具有一定相似性但技术细节各有千秋,主要差异体现在对各自的应用场景设计了独特的压缩算法和优化方法。目前来看,AVS3与VVC还存在性能差距,仍有继续探索和提升的空间。