论文部分内容阅读
数字图书馆和Web等大规模信息资源库的飞速发展对多媒体信息分析与检索技术提出了新的挑战。这些信息资源库具有数据容量大、数据类型丰富、非专业用户数量多等特点,这就要求多媒体分析与检索工具能够提供语义层次上的准确查询功能,而且支持对多种不同类型的多媒体数据的并行搜索。然而,现有的多媒体信息检索技术无法达到这一要求。本文以数字图书馆为目标应用,对传统多媒体信息分析与检索技术进行了拓展性研究,重点介绍了三项关键技术:多媒体交叉参照检索系统框架,图像语义自动标注,以及视频的多模态分析。这些技术对于解决数字图书馆和类似资源库中的信息分析与检索问题具有一定的价值。 本文首先介绍了研究背景,简述了现有技术与不足,并概括了本文的主要工作。 在第二章中,我们回顾了多媒体检索领域中最活跃的图像检索、视频分析以及近年来成为热点的多媒体内容自动标注的研究工作,包括技术路线、相关技术和典型系统。 在第三章中,我们提出了一种基于交叉参照图模型的多媒体交叉参照检索系统框架。该检索系统最大的特点是把多种不同媒体对象的检索无缝融合到一个系统中。该系统从多媒体文档中提取出多媒体对象之间的语义关联并用交叉参照图模型表示。基于交叉参照图模型,我们实现了一个多模态交叉参照搜索引擎,用于综合计算媒体对象与查询之间在语义和内容层次上的相似度。该系统还支持用户相关反馈来调整交叉参照图模型。 在第四章中,我们提出了一种图像语义自动标注算法。人们通常使用手工方式对图像内容进行文本标注,以支持基于语义的图像管理与检索。随着图像数据库的不断增大,手工标注费时费力以及主观偏差的缺点越来越明显。在标注图像库的支持下,我们提出了一种新的图像语义自动标注算法。该算法首先基于支持向量机对未标注的图像进行分类;然后利用统计学习模型自动选取最能够表达图像内容的若干关键字作为标注信息。 在第五章中,我们提出了一种基于最大熵的多模态视频分析技术。视频蕴涵了丰富的语义信息,可以用文本、视觉和听觉特征等多模态特征表达。本文用最大熵模型对视频的多模态特征进行建模,对视频进行语义标注。 在第六章中我们对全文作了总结,讨论了本文所述技术的应用前景和未来的研究方向。