论文部分内容阅读
随着多媒体技术的不断发展,数字视频已经成为日常生活中重要的消息传递途径和娱乐消遣方式。视频序列中蕴含丰富的信息,能够充分、直观地表达拍摄视频的内容。但视频数据量大、重叠率较高,这给数据存储、检索和网络传输带来了极大的困难。消除图像序列之间的冗余信息,以简单摘要形式表达视频的主要内容是提高存储、检索与网络传输的重要途径之一。全景拼接图是一种有效的视频摘要表现方式,通过将视频序列拼接成一张分辨率高、视野广的全景图,能够较好地消除视频中的冗余,较为完整地传达包括时间序列在内的视频主要信息。基于全景图的视频拼接技术可以广泛应用于视频压缩、视频监控和视频纹理生成等各个方面。全景拼接技术主要分为基于图像配准的方法和基于流形的条状图拼接方法两大类。基于图像配准的方法比较适用于重叠率较小、数目较少的图像序列。基于流形的条状图拼接方法比较适用于重叠区域较大、数量较多的图像序列。但传统的基于流形的全景拼接技术存在不能保留特定关键区域的内容、表达视频运动信息的能力较差以及实现速度较慢的问题。因此,本文针对上述问题开展了基于内容的全景图拼接技术的研究,主要研究内容如下:(1)对于存在局部运动的视频,传统基于流形的全景拼接技术无法预测全景图像中的运动对象的具体形态与位置,无法实现用户想要保留特定对象特定形态的需求。本文在现有基于流形思想的视频拼接方法基础上,提出了一种基于内容的视频图像拼接方法。该方法结合了图像的重要度算法,用边约束的最短路径算法实现视频全景拼接,满足了在全景图中保留特定对象某一时刻的具体形态的要求。(2)考虑到单约束对象的全景拼接技术只能保留运动对象某一时刻的状态,不能同时保留多个运动形态,本文提出了一种新的运动全景图生成方法:结合关键帧提取技术提取关键帧的显著对象,采用基于内容的全景拼接方法分别生成单约束对象的全景图,然后采用KNN算法交互式提取各张全景图中的前景运动对象,将不同运动形态的前景对象与不带约束的全景进行融合,实现最终的运动全景图。本文还对前景对象设置了渐进变化的强度,来表现对象的运动时序信息。(3)针对视频数据具有数量大、冗余多的特点,本文从串行和并行两个方面提出了拼接技术的优化方法。串行加速方法主要结合了高斯金字塔的塔形结构,对时空空间进行降采样,自底向上分层求解最短路径实现全景图的拼接。并行加速主要采用基于CUDA的并行计算方法,并行实现邻接矩阵的构建和最短路径的查找算法,以提高图像的拼接速度。论文对两种方法的性能作出了分析,并比较了两个优化方法的优劣。