论文部分内容阅读
随着3D立体频道的开通,世界范围内的各个3D频道普遍存在节目制作周期长、更新慢、节目源匮乏的问题。此外,在立体影视节目制作时,也不可避免地需要利用一些原有影视节目镜头作为其中的素材。针对3DTV产业存在上述的问题,2D到立体视频转换技术逐渐成为产业内的关注点。把传统2D视频转换为3D立体视频,其核心问题是如何从普通视频中恢复视频中景物原有的空间远近和几何结构,在此基础上使用相对成熟的基于图像的绘制手段来生成显示需要的左右两路立体视频对。 基于上述研究背景,本学位论文主要研究把传统的2D影视节目转换为3D立体视频系统中的如下关键技术:2D视频中场景深度结构的恢复、针对立体视频显示时的视差排布分析和预测、视频转换系统中的深度线索压缩和立体视频编码等,解决了深度预测中针对镜头聚焦线索的二义性、不同深度线索相互融合等问题。针对目前2D到立体视频转换技术中尚未成熟的关键环节而提出的,本文所提方法和技术将会促进相关技术的发展。言而总之,本论文主要贡献如下: (1)提出了一个多线索融合的视频场景深度恢复框架。针对实际影视视频中常出现的大气光透视线索、立体匹配线索、聚焦线索等线索进行深度估计时,深度线索的不稳定性、线索缺失、噪声干扰、多种线索相互冲突和值域范围不一致等问题,提出了深度线索置信度估计、稳定深度线索锚点设定、多线索深度范围对齐等策略,实现了不同深度线索深度估计的融合。在实际的影视节目中,聚焦模糊是常见的深度线索。针对该线索存在着先天的二义性问题——出现在聚焦处前后等距离的物体其模糊程度一致,提出了一个基于镜头聚焦线索深度恢复的二义性问题解决算法。本文提出了利用遮挡关系推断的方式,决定场景中物体之间的“序关系”,以决定物体在空间中的前后层次关系,进而解决聚焦模糊深度线索的二义性问题。聚焦模糊深度线索二义性的去除能够有效地提高多线索融合的深度估计算法计算性能。由于二维视频深度估计算法评价时,基准数据缺失,在本文中,为了实现对于算法性能的评价,我们开发一套交互标定工具,可以由标注师来纠正算法估计不合理的位置,以此作为一种相对“客观”的算法性能指标。在这样的性能评价框架下,对于场景背景的深度估算的合理性(正确性),算法的错误率为24%左右。对于主观质量评价,我们使用自动估计的深度图来合成立体图像与纠正后的深度图合成的立体图作对比评测,二者的打分结果接近一致。 (2)提出了一个基于学习的视频场景视差布置自动预测方法。在立体视频制作中,除了要体现物体在空间中本身的深度层次感和远近感之外,影视艺术工作者往往还会设定在显示时,场景中一部分物体会凸显在屏幕外边,以达到提高立体显示的震撼力的效果。在现有的2D到立体视频转换工作中,主要研究都集中在场景深度估计,而很少有研究关注场景物体显示时的屏幕内屏幕外的效果。在本论文中创造性地提出,在现有立体影视节目作为训练数据的情况下,使用机器学习的方法,训练视频特征与显示在与立体视频中带有符号的视差(正视差——屏内显示,负视差——屏外显示)之间的潜在关系,以此来学习或捕捉一些影视艺术家的立体影视制作的意图和视角。实验结果中,预测的视差与原有的视差布置状况相似度高于80%。 (3)提出了一种紧致的立体视频表示方法,用于2D视频到立体视频转换系统中深度线索压缩算法及系统中立体视频编解码系统框架。针对立体视频的压缩,我们提出了一种紧致的立体视频表示方法,该方法把立体视频表示为一路2D视频及其对应的深度线索。其中,深度线索包括场景中前景物体轮廓(及其深度计算参数)和背景深度恢复模型参数。在这样的表示下,立体视频编码由2D视频压缩和深度线索压缩构成。本文针对深度线索压缩,提出了针对场景中物体轮廓数据的压缩方法和解压缩方法。实现中,无损压缩算法能够达到10倍左右的压缩率,有损压缩算法能够达到100倍左右的压缩率。在不同场景深度复杂度的情况下,立体视频的编码效率能够有10%~50%的提高。编解码算法的时间复杂度都能达到进一步优化为实用系统的要求。 (4)实现了一个交互式2D视频到立体视频转换系统框架并实现了原型系统。本文中,由第二章的深度估计算法和第三章的视差布置预测方法可以构成一个全自动2D到3D视频转换系统。但由于实际影视数据的场景复杂性,特别是场景中前景(人物)光照、运动和着装等因素的不可预见性,完全的自动转换必然不能解决场景中每一部分的自动计算。基于这样的考虑,本文提出了一种自动转换和交互标注相结合的转换方式,在提高转换结果的精度的同时也能够大大减少手工标注的劳动时间,提高了立体视频转换的生产效率。具体地,所提系统框架在整合本文第二章和第三章作为转换系统核心部件的同时,还提出了利用镜头分割和镜头内场景标注复用的方式,来达到关键帧上的转换结果在多帧上复用的目的;在此基础上,系统进一步集成了第四章所提的立体视频压缩方法,已达到在立体视频生成时,节省系统存储和传输资源的目的。