论文部分内容阅读
随着多媒体技术和传感器技术的飞速发展,图像和视频作为记录视觉的载体,对人们的生活、生产等产生越来越重要的影响。近十年来,在各个方面的记录视觉信息的需求,产生了爆炸式的图像和视频。在这些数据中,运动信息在图像和视频的生成和记录过程中都扮演着重要的角色,可以说覆盖了图像和视频处理的各个领域,而在语义上也涵盖了从低层的运动轨迹估计到高层的运动理解。具体来说,在图像生成过程中,相机运动会带来图像的模糊,而使得图像的信息熵增大,为了能够恢复出清楚的尖锐的图像,我们往往需要精确估计相机的运动。在图像的记录过程中,有可能因为物体或人的快速运动造成了图像内容的运动模糊。在记录过程中产生的运动模糊往往比清楚图像提供的信息更多因为其捕捉到了动态的物体叠加。视频通常可以看作是图像在时序上的叠加,类似地,在视频产生过程中,相机的运动往往会导致画面的晃动和模糊,无论在图像质量上和视频可观赏性上都有一定的影响。而在视频内容记录中,运动信息往往是视频存在的理由,分析其运动往往更关注高层的语义。本课题以运动为核心,对图像和视频中的运动估计和分析展开了深入研究,具体包括:图像生成过程中相机运动的建模和表征,模糊图像中的相机运动估计和图像复原,视频内容记录中的运动的多层次表征学习以及运动的快速分析。本论文的主要工作和创新点可以总结为以下几点:1.在图像成像过程中对相机运动的深层分析,我们提出了对运动核进行分解并独自优化的模型。该分解模式能够揭示相机成像的内在特性,从而以一种全新的角度观测经典的图像去模糊问题。为了展示该表征的优势,我们提出了轨迹随机扰动算法来优化运动核。在很多例子当中,我们发现现有的去模糊算法落入局部极值的时候,我们的算法通过独立优化相机轨迹能够取得较好的去模糊效果以及正确的模糊核。2.在图像成像过程中利用高亮区域能够较准确地刻画相机运动这一特点,我们针对夜景这一非常具有挑战性的场景结合高亮区域把该问题变得可行。我们提出了一个全新的框架有机地把从高亮区域中推断出的运动核和非高亮区域结合求解更准确的运动核,除此之外,我们提出了一个全新的函数化运动核表征从而较准确地从高亮区域推断运动核,我们提出了一个新的能量最小化方程能够自动地把提取的运动核分配给不同的区域以便进行非均匀去模糊。3.在视频内容记录中,我们侧重分析了视频内容中的重要的运动信息:摔倒动作检测,为了适应视频流场景下实时的运动分析,即实时的摔倒检测,我们把视频内容中运动信息按照"难易程度"分层,通过级联的方式进行动作检测,不同于传统的级联框架,该级联框架能够支持不同复杂度的特征。通过这种混合特征的级联框架,我们的系统在精确度和效率上能够达到较好的折中。除此之外,我们精细地设计了我们采用的特征,支持特征复用以及增量式更新从而能够对视频流场景具有较好地支持。最后,在摔倒动作检测的基础之上,我们进行了拓展从而能够支持一般种类的动作检测以及引入了更多种类的特征从而在精确度上有一个更好的提升。本文针对图像生成过程中和视频内容记录中的运动进行了深入的分析。大量的实验结果表明了我们对相机运动建模的有效性以及对视频内容中运动分层而快速检测的高效性。