论文部分内容阅读
随着数字信息技术的飞速发展,海量的多媒体数据已越来越多地融入了人们的日常生活之中,然而如何能够快速有效地从中查找到所需要的信息却是一个严峻的挑战。同时,在多媒体信息检索的研究中,基于内容的视频检索因其涉及内容数据量大、关系复杂及包含多模态信息等特点成为了颇具代表性的一个子任务。本文对此进行了深入探讨,并着重从测度学习的角度出发,对其中关键的视频高层语义提取技术及其相关的应用系统进行了研究。在基于内容的视频检索中,人们往往喜欢使用描述性的查询来对所需要的高层语义进行近似,也即包含所需要信息的语句、样例图片或视频片断等。对此,通过寻找与查询相似的近邻样本数据点来得到结果,如较常用的K近邻算法等是十分有效的方法。然而,这对相似性的度量提出了很高的要求,一般的欧式空间因缺乏对样本空间较好地描述,而不能得到很好的效果,这样,如何能够学习得到有效的测度在这个背景下就显得十分关键。本文对测度学习,尤其是带监督的测度学习进行了系统的研究,以寻找一种使得在学习得到的测度空间下近邻样本能够真正体现分类信息的有效方法,从而较为准确地得到高层语义。其中,最大边际近邻分析结合了类似支撑向量机的最大边际框架,能够得到很好的泛化性能。本文针对大规模数据特点对其进行了优化,以使得能够有更高的检索效率。同时,作为信息可视化的典型应用,基于内容视频检索的一个目标就是能够将所需要的信息有效地进行组织并呈现给用户。本文结合该思想以及高层语义特征提取相关算法进行了具体系统的设计,特点是一方面能够利用有效的测度学习方法对视频的语义信息进行提取并通过合适的检索模型予以组织,另一方面能够通过合理的前台设计,结合视频的结构特点有效地将后台信息呈现给用户并将用户的反馈及时准确地传输给系统对模型进行优化。针对以上的算法及其应用,我们结合TRECVID和VideOIymipcs视频检索评测进行了实验分析,且取得了不错的实验效果。