流形降维方法在视频内容分析中的应用研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:como
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机、网络和数字化技术的发展和普及,网上多媒体数据量急剧增加,计算机自动处理、分析、挖掘、检索网上海量多媒体数据(特别是视频数据)已经成为信息社会的迫切需求,视频信息处理和内容分析的研究迎来了巨大的发展机遇,也面临着许多挑战。 过去10多年来,人们在镜头边界检测、场景分析、视频摘要等许多方面取得很大研究进展,主要成绩有:研究了各种低级视觉特征(例如颜色、边缘、纹理等)的提取方法和表示能力;采用了多种数学模型(例如隐马尔科夫模型HMM、高斯混合模型GMM等)进行视频内容分析,以发现各种模型对视频信息的建模和表达能力;探索了各种基于机器视觉、模式识别的方法,以发现更加有效的时空特征,以及更适合视频特征提取与识别的方法。 在这些研究中,已经有很多方法能够进入实际应用,如镜头边界检测技术等。但是,在所取得的大量研究进展之背后,我们还应清楚地看到一些难以解决的问题,例如涉及高层语义的场景分析问题仍然没有切实可行的解决方案,因为语义鸿沟的存在,基于语义的视频内容分析的研究尚无重大进展。 近年来提出的一些非线性降维方法,例如流形降维方法,在视频内容分析中可能会发挥重要作用,因为它能更好地揭示隐藏在观察数据中的某些内在规律,这是传统线性方法(例如主分量分析PCA)无法做到的。 本文采用流形降维方法处理视频内容分析中两个实际问题:镜头边界分类和场景分析。我们用一种流形降维方法即拉普拉斯特征映射来发现镜头边界附近图像序列的时域变化模式,用图像序列在其低维流形空间的映射来表示镜头边界的特征,以期反映镜头边界的本质特性;同时,我们针对镜头边界分类问题的样本不平衡特性,设计了一种样本大小相关的KNN分类器,以学习每一种类型的镜头边界的模式。实验表明,流形空间表示的图像帧序列模式能很好地反映镜头内容变化的本质特性。 对于视频场景分析,至今也没有取得良好进展,其主要原因是语义鸿沟问题。本文提出了一种介于镜头和场景之间的结构特征,它能在一定程度上刻画类似场景的结构信息,但又不涉及高层语义信息提取的难题。我们用拉普拉斯特征映射来提取上述结构特征,把镜头映射到流形空间上,并进行编码,从而获得一维的变化特征曲线。通过对具体案例的观察分析,我们发现该曲线既能反映镜头特征,又隐含了一定程度的场景结构信息。 总之,本文探索了流形降维方法在镜头边境分类和场景分析方面的应用,实验表明流形降维方法对于视频内容分析是一个有用的工具。
其他文献
由于IPv4在地址空间、安全性、地址自动配置等方面存在缺陷,因而,IPv6技术应运而生。IPv6扩展了地址空间、引入全新的地址管理方案、对QoS的支持、对流媒体的支持以及完善的
Web服务是目前互联网的发展热点,不少不同行业的大企业都在联合研究它的使用和推广,几个处于领导地位的计算机公司正在加紧开发支持该架构的平台软件,相关产品正陆续推出。We
无线传感器网络是能够通过部署在某地区的一定数量的传感器节点来感知和采集所监测环境的信息,并将采集的信息传送给客户端的一种无线自组织多跳网络。移动无线传感器网络是一
随着信息技术的飞速发展以及各种数字技术的兴起和普及,需要存储的信息量也呈爆炸式地增长,对存储系统的安全性和性能要求也是越来越高。因此,如何在不大幅度增加开支的情况
近十几年来,信息技术给图书馆带来了前所未有的冲击和影响,数字资源呈现出形态复杂、种类繁多、分布广泛、平台各异的特点。为了降低读者检索的难度,从根本上解决信息爆炸和检索
随着计算机技术,特别是Internet技术的迅猛发展,在各行各业都逐步实现了数据、信息的计算机化管理。但是这些信息和数据是独立的,相互隔离的。传统的数据库集成方法现在已经远远
随着互联网络技术和微电子技术的不断发展,传统的处理器已经不能满足日益增长的网络应用和服务的需求。因此,一种专为处理网络应用和服务而设计的高性能网络处理器应运而生。
本论文针对传统的软件缺陷管理不足,采用在优化其现有流程的基础上对整个缺陷管理过程进行度量的方法,突破旧的模式,使缺陷管理在项目管理中发挥更大的作用。在CMM日益受欢迎
将Internet应用到各种嵌入式系统中,通过Internet实现对设备的监控,已成为Internet和嵌入式系统发展的新趋势。嵌入式Web服务器(Embedded Web Server,EWS)造价低,方便灵活,易于扩
随着互联网(Internet)的普及以及数据库管理技术的发展,一方面大量互联网上的节点需要相互共享数据或共享服务。另一方面,网络带宽的成倍增加以及计算机计算能力的大大提高,对等