多媒体交叉参照检索和语义自动标注

被引量 : 0次 | 上传用户:killpl12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆和Web等大规模信息资源库的飞速发展对多媒体信息分析与检索技术提出了新的挑战。这些信息资源库具有数据容量大、数据类型丰富、非专业用户数量多等特点,这就要求多媒体分析与检索工具能够提供语义层次上的准确查询功能,而且支持对多种不同类型的多媒体数据的并行搜索。然而,现有的多媒体信息检索技术无法达到这一要求。本文以数字图书馆为目标应用,对传统多媒体信息分析与检索技术进行了拓展性研究,重点介绍了三项关键技术:多媒体交叉参照检索系统框架,图像语义自动标注,以及视频的多模态分析。这些技术对于解决数字图书馆和类似资源库中的信息分析与检索问题具有一定的价值。 本文首先介绍了研究背景,简述了现有技术与不足,并概括了本文的主要工作。 在第二章中,我们回顾了多媒体检索领域中最活跃的图像检索、视频分析以及近年来成为热点的多媒体内容自动标注的研究工作,包括技术路线、相关技术和典型系统。 在第三章中,我们提出了一种基于交叉参照图模型的多媒体交叉参照检索系统框架。该检索系统最大的特点是把多种不同媒体对象的检索无缝融合到一个系统中。该系统从多媒体文档中提取出多媒体对象之间的语义关联并用交叉参照图模型表示。基于交叉参照图模型,我们实现了一个多模态交叉参照搜索引擎,用于综合计算媒体对象与查询之间在语义和内容层次上的相似度。该系统还支持用户相关反馈来调整交叉参照图模型。 在第四章中,我们提出了一种图像语义自动标注算法。人们通常使用手工方式对图像内容进行文本标注,以支持基于语义的图像管理与检索。随着图像数据库的不断增大,手工标注费时费力以及主观偏差的缺点越来越明显。在标注图像库的支持下,我们提出了一种新的图像语义自动标注算法。该算法首先基于支持向量机对未标注的图像进行分类;然后利用统计学习模型自动选取最能够表达图像内容的若干关键字作为标注信息。 在第五章中,我们提出了一种基于最大熵的多模态视频分析技术。视频蕴涵了丰富的语义信息,可以用文本、视觉和听觉特征等多模态特征表达。本文用最大熵模型对视频的多模态特征进行建模,对视频进行语义标注。 在第六章中我们对全文作了总结,讨论了本文所述技术的应用前景和未来的研究方向。
其他文献
探讨了凡纳滨对虾Lito penaeus vannamei血细胞中是否存在一氧化氮合酶(NOS)活性,进行了副溶血弧菌Vibrio parahaemolyticus和哈维氏弧菌Vibrio harve yi脂多糖(LPS)体外孵育实验,
<正>一、一段美好的爱,成就现在的我《意林》:你觉得五年的爱情给你带来了什么?夏七夕:因为要不停追赶那个人,所以不停地改变自己,完善自己,对自己有更高的要求。如果不是因
期刊
超导材料是一种具有零电阻特性和麦斯纳(Meissner)效应的材料。在通常状态下超导材料是绝缘体或半导体,在低温状态下表现出其零电阻特性。超导材料分为低温超导材料和高温超
产业价值链是指以某项核心技术或工艺为基础,以提供能满足消费者某种需要的效用系统为目标的、具有相互衔接关系的企业集合。产业价值链分析为观察产业发展提供了新的视角,是
城镇化是指城市人口所占的比重不断提高,城市规模不断扩大,城市数量不断增加,同时城市文明不断向乡村扩散普及,传统落后的乡村社会逐渐转变为现代文明的城市社会,最终实现城
煤矿事故频繁发生是我国煤矿生产安全管理工作面临的一个重大难题。为了探求煤矿事故的发生机理,分析煤矿事故发生的原因,以指导我国煤矿生产安全管理工作,预防煤矿事故的发生,从
人脸自动识别系统是目前计算机视觉领域的一个重要研究课题,而人脸自动识别系统中作为定位人脸的人脸检测是整个人脸识别系统正常及高效工作的基础。由于人脸的非刚性,使人脸检
美国项目管理协会(PMI)制定了目前的项目管理知识体系,简称为PMBOK (Project Management Bode of Knowledge )。在这个知识体系指南中,把项目管理划分为9个知识领域,即:范围
煤矿企业在我国的能源生产当中占据十分重要的地位。近年来,我煤矿企业的后勤管理工作一直都是社会关注的焦点。后勤管理不仅能提升煤矿企业的后勤管理能力,提高员工的生活质
在日趋激烈的市场竞争中,一个企业要想取得竞争优势,必须不断提高其整体效能和绩效,人力资源管理工作愈显出其重要性。传统的绩效考核对绩效的影响是被动的和阶段性的,实践证