面向网络数据的跨模态检索方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sm3618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和多媒体设备的普及,人们每天在互联网上要发布、分享和传播成百万上千万的多媒体数据。相对于传统的文字媒体,多媒体技术往往能更直观而生动的表现出其想表达的内容。然而同一网站的多媒体信息不能涵盖所有数据模态。所以为了获取完整的信息,互联网用户会需要通过一种便捷而有效的跨模态检索方法来寻找其他模态的信息。在已有的研究中,跨模态检索方法研究缺乏一个良好的数据库作为评测平台,并且已有的检索方法没有利用网络信息中独有的结构信息。  针对上述问题,本文从构建跨模态数据库和利用网络结构信息进行跨模态检索方法两个方面进行了研究。本文的主要研究内容和核心贡献如下:  (1)在跨模态数据库方面,本文提出了一种面向网络结构的自顶向下的爬虫策略构建数据库。首先,所构建的数据库选用了500个包含了各种类别信息的种子进行页面采集工作。通过采集页面的超链接,得到更多的种子从而进行自发式可扩展的页面采集。在得到数据后,所构建的数据库对数据进行了特征提取,并对每个数据的类别进行了手工标注。最后得到了一个包含74961个文档的数据库。每个数据库中包含一段文字,和相关的图片信息(图片数量不固定)、网络结构信息(超链接)和分类信息。通过与已有的其他数据库进行对比,本数据库在数据量和完整性上都超过了已有的跨模态数据库。我们在该数据库上对一些经典的跨模态检索算法进行了评测。  (2)本文提出了一种结合网络结构信息的特征表示方法。通过将数据的特征和网络结构信息相关的特征进行融合,所提方法得到了一种新的数据特征表示方法。在实验部分,本文分别用原始的特征表示和新的特征表示进行了跨模态检索实验,实验证明,本文提出的新的特征表示方法是一种更适合跨模态检索的特征表示方法。  (3)在跨模态检索领域,本文提出了一个融合网络数据内容信息和结构信息的跨模态检索方法框架。首先,所提方法利用网络数据独有的超链接邻居作为查询扩展的备选项。对于任意一个查询,所提方法将所有由它的出链接相连的页面作为原始的链接邻居。然后通过构建一个链接邻居过滤器来得到判别力强、语义含义丰富的链接邻居作为最终的查询扩展。其次,在查询本身和最终的查询扩展项算法实现中,都使用典型相关分析和核化典型相关分析进行跨模态检索得到每个检索目标的得分。最后,针对每个查询扩展的结构信息,算法框架将对每个查询扩展加以不同的权重,最终输出检索结果。在我们已知的范围以内,本文是第一个提出将网络结构信息加入到跨模态检索方法中的。  
其他文献
图像分割技术是图像处理和分析中的一项关键技术,同时眼底图像分割一直以来也是医学图像处理领域的一个研究热点。眼底视网膜图像被广泛应用于眼科疾病的诊断中,使用图像处理与
随着我国航天遥感事业的发展,在轨运行的遥感卫星和载荷数量不断增多、性能不断提高,为了充分利用卫星资源,尽可能的满足用户成像需求,迫切需要卫星地面系统进行多星综合任务规划
采用Java2技术开发一个B/S结构的网络考试系统,系统继承了Java语言的优势:平台无关性、安全、面向对象(系统的可维护性、可扩展性都很好).该文主要对网络考试中的以下问题进
近几年来,随着Internet的飞速发展,新兴的XML技术得到了越来越广泛的关注。XML是一种为实现与平台无关的数据存储和交换、实现将内容与显示分离而建立的标准。正因为如此XML语
网络技术的发展速度远远超过了构建者的预期,进入网络中的计算单元的数量越来越多和种类越来越繁杂,人们不昨不重新考虑在这种新的形式下的互联网络体系结构.为了适应海量的
该文以油库管理信息系统(OilMIS)为应用背景,运用基于面向对象的软件建模语言UML对它的业务和功能进行分析,结合应用特点建立一个OilMIS应用程序模型框架并给出了基于UML的系
本文首先对文本分类的概念、方法、类别及应用等方面进行了一个概括地介绍,然后结合汉语自身的特点较为详细地分析了中文文本自动分类中所涉及到的关键问题及技术,并且特别针
软件过程是软件工程的基础。在软件开发中,正是过程把人、工具以及规程和方法集成在一起,生产出预期的最终产品。一个严格定义、可重复、可度量和不断优化的软件过程,是软件产品
流量工程和网络行为学的主要目的是将业务流量在现有的网络拓扑结构上合理分配,优化网络资源的合理使用.而要达到这一目的,就需要对网络设备的性能指数进行提取和分析,从而对
针对目前探空火箭数据管理设备通用性较差的问题,以及对于航天器数据处理设备扩展性和可靠性不断增加的任务需求,设计了一种具备通用性和可扩展性的新型数据管理系统。设计使用