论文部分内容阅读
随着信息高速发展,视频数据在现代社会中发挥着越来越重要的作用,视频摘要提取技术正是在这种大环境下“应运而生”的。视频摘要提取是从视频数据中摘取具有代表性的图像帧或视频片段,通过视频结构化和摘要提取,能够生成一个有意义的并且能够体现视频内容的结构大纲,便于用户对视频内容进行浏览、编辑和检索。目前,视频摘要在多个方面取得了长足的进步,当前主要研究内容包括:视频底层特征分析、中级语义信息提取(即语义事件检测)、高级事件推理、精彩事件检测、自动摘要生成、视频浏览、视频检索、个性化定制、视频内容编辑等,然而,由于数据模型的适应性、语义的分析和理解等仍存在较大问题,大规模的应用还没实现。本文针对数据模型和语义分析这个热点和难点从视频特征,结合视频类型规则和统计物理学等跨领域内容进行了较系统和循序渐进的研究。
本文主要完成的研究工作有以下几个方面:(1)详细总结了与基于内容的视频摘要相关的理论、系统的发展状况。结合国内外在视频结构化分层领域的研究成果,引出了本文基于内容的视频摘要生成的方法,并阐述了一种层次视频摘要系统框架。(2)利用DirectShow技术,实现了视频的播放与视频帧的捕获,并合并视频摘要形成缩略视频,并探讨了关键帧提取的原理与主要算法,重点介绍互信息量聚类算法,并利用VC++实现了这些算法,同时进行比较分析;(3)本文以基于互信息量聚类算法为基础提取关键帧,并提出“局部-空间”模型,同时以广告和体育视频为例,详细说明该数据模型的实现流程,获取了动态视频摘要;(4)在上述模型的基础之上,参考多重分形、流形学习和张量分析,提出一种高层语义概念形成场景级视频摘要的算法-基于流形学习张量方法的视频摘要研究,并进行了实验对比。