视频高层语义提取技术研究与应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:tdsl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字信息技术的飞速发展,海量的多媒体数据已越来越多地融入了人们的日常生活之中,然而如何能够快速有效地从中查找到所需要的信息却是一个严峻的挑战。同时,在多媒体信息检索的研究中,基于内容的视频检索因其涉及内容数据量大、关系复杂及包含多模态信息等特点成为了颇具代表性的一个子任务。本文对此进行了深入探讨,并着重从测度学习的角度出发,对其中关键的视频高层语义提取技术及其相关的应用系统进行了研究。在基于内容的视频检索中,人们往往喜欢使用描述性的查询来对所需要的高层语义进行近似,也即包含所需要信息的语句、样例图片或视频片断等。对此,通过寻找与查询相似的近邻样本数据点来得到结果,如较常用的K近邻算法等是十分有效的方法。然而,这对相似性的度量提出了很高的要求,一般的欧式空间因缺乏对样本空间较好地描述,而不能得到很好的效果,这样,如何能够学习得到有效的测度在这个背景下就显得十分关键。本文对测度学习,尤其是带监督的测度学习进行了系统的研究,以寻找一种使得在学习得到的测度空间下近邻样本能够真正体现分类信息的有效方法,从而较为准确地得到高层语义。其中,最大边际近邻分析结合了类似支撑向量机的最大边际框架,能够得到很好的泛化性能。本文针对大规模数据特点对其进行了优化,以使得能够有更高的检索效率。同时,作为信息可视化的典型应用,基于内容视频检索的一个目标就是能够将所需要的信息有效地进行组织并呈现给用户。本文结合该思想以及高层语义特征提取相关算法进行了具体系统的设计,特点是一方面能够利用有效的测度学习方法对视频的语义信息进行提取并通过合适的检索模型予以组织,另一方面能够通过合理的前台设计,结合视频的结构特点有效地将后台信息呈现给用户并将用户的反馈及时准确地传输给系统对模型进行优化。针对以上的算法及其应用,我们结合TRECVID和VideOIymipcs视频检索评测进行了实验分析,且取得了不错的实验效果。
其他文献
随着计算机辅助教育研究的不断深入,计算机考试系统作为计算机辅助教学的重要组成部分越来越受到人们的关注。自动组卷是按照一定的要求,由计算机自动从试题库中选择试题,组成符
SAR图像分割是SAR图像理解和解译过程中的一个关键性工作,对后续的目标检测与识别等任务影响巨大。对于SAR图像的分割,传统方法往往需要借助经验提取人工设计的特征,这种特征
Web服务作为一种新兴的Web应用模式和分布式计算模型,从根本上解决了企业之间及企业内部异构系统之间的互操作和互通信问题。然而现有的主流Web服务发现方法是采用基于UDDI框
计算机网络的复杂性与日俱增,为实现网络安全智能化管理必须对网络进行有效的监测。本文通过利用现有的网络监测技术基于智能Agent中社会性的定义建立了一个可面向社会Agent设
随着新世纪的到来,高新技术发展和全球经济化的加速,我国的产业结构和就业结构正在发生重大变化,对人才的需求更加多样化,对人才培养的质量要求更高。高等职业教育作为高等教
随着多媒体技术和网络通信技术的飞速发展,视频已经广泛地用于政治、军事、商业、医疗和教育等行业。除了政治和军事这两个需要高保密性的领域外,其它领域对视频加密的需求也
由于无限传感器网络(WSNs)具有链路开放,节点生存周期有限,网络拓扑结构动态变化等特性,其安全性受到极大挑战。传统的防火墙机制在探测攻击行为方面具有很大的滞后性,而入侵
21世纪步入了信息时代,越来越多的科技产品引入了人脸识别技术。人脸识别可以帮助人们快速、精确的进行身份的识别,具有十分重要的研究价值和意义。本文对人脸识别的关键技术
随着信息技术的迅猛发展,社会对Web应用系统的需求日益增长。如何快速开发高质量的Web应用系统,以满足社会的需求,已成为当今软件开发领域中的热点问题。在现代Web应用系统开
越来越多的研究表明,长非编码RNA(long non-coding RNA,lncRNA)在许多生物过程中具有重要的功能。而这些长非编码RNA的变异或功能失调会导致一些复杂疾病的发生。目前关于长