信息检索中基于图的半监督排序学习问题研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wangxiaohong75
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网成了全球最大、最广泛使用的信息库,如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索技术越来越受到人们的重视。信息检索是指从大量的实例集合中查找到与给定的查询(query)相关的信息子集,是处理海量信息的重要手段。目前绝大多数的信息检索系统中,其检索出来的信息(如文档)都以排序的方式返回给用户。因此,如何高效地对信息进行排序成为信息检索研究的核心问题之一。   传统的排序学习方法包括无监督学习和监督学习方法。无监督学习是基于经验估计的,对搜索结果有一定的盲目性,效果不是很好。监督学习需要大量的人工标注样本,而标注样本是一项耗时长、难度大且代价昂贵的工作。与此同时,无标注样本数量巨多、获取简单且廉价,如何利用无标注样本辅助学习,也成为一个重要的研究课题。除此之外,传统的排序学习方法以相似度为基础,只关注局部信息,使得一些相似度不高却高度相关的实例排名靠后,从而影响了排序性能。为解决上述问题,本文将基于图的半监督学习应用到信息检索中,实现了基于图的半监督排序学习。   已有基于图的半监督排序方法只把查询作为标注信息,从某种程度上说并没有合理利用标注信息,因而本文从合理利用标注信息入手,结合图中的流形结构,分析得出处于同一流形结构中节点间的影响程度要大于处于不同流形结构中节点间的影响程度。基于以上分析本文提出并实现了基于权重调节的半监督图排序算法,并成功应用于文档检索中。   为了更有效的利用同一实例的多种表现形式,使得在克服单图学习缺陷的同时提高排序性能,本文还将基于图的半监督排序学习扩展到多视图学习中,提出了两种不同的多图融合方法—图融合算法和结果融合算法,文中还结合损失函数从理论上对两种算法进行了比较分析,并将它们成功应用到论文检索中。
其他文献
在各种无线网络中,移动自组织网络以其无中心、多跳等特性区别于其它网络类型,在军事领域和救灾等场合有着重要应用。近年来,移动自组织网络的应用范围在民用领域不断延伸,随着各
Peer-to-Peer技术,也叫P2P计算,是一个新出现的有可能改变下一代Internet架构的研究热点。在P2P系统中,数量巨大的节点(连接在互联网上的电脑)可以聚集在一起共享它们的资源、信
自然图像去噪是图像处理领域的经典问题,不同途径产生的图像可能包含不同来源的噪声。对含噪图像进行研究和学习时,图像中存在的噪声会严重影响其质量,为了保证后续图像处理
复杂网络的广泛研究源于它对很多复杂系统的结构提供的灵活抽象能力,从社会系统到计算机系统再到生物系统。2011年,Liu在《Nature》上发表的先驱性成果,掀起了探索复杂网络控
针对目前太阳能路灯监控系统存在的技术问题,本文研究了太阳能路灯系统中,太阳能电池及蓄电池工作的基本原理、太阳能电池对蓄电池的充电特点、蓄电池的容量检测技术、LED光
最优化问题是一类最常遇到的问题,因为最优化问题的解决通常是某个问题得到解决之前的最后也是最关键的步骤。近些年来,随着科学技术的发展和工程应用的不断的增多,很多问题
建筑目标检测与识别是ATR(Automatic Target Recognition)技术的重要组成部分,是目前尚未很好解决的一个重要问题。本文主要研究在可见光的航拍建筑目标图像中,位于中远距离
视频监控产品是目前的热点产品之一,应用十分广泛。而AVS(先进音视频编码标准)是中国具有自主知识产权的数字音视频编解码技术标准。在便携设备上实现AVS的软件实时编码,对于
随着计算机处理器向多核技术发展,如何提高核与核之间的通信效率是提高多核技术性能的关键问题之一。从上个世纪九十年代中期到本世纪初,半导体集成电路芯片制造工艺先后经历从
在实际工业控制中要想获得被控对象的精确数学模型是非常困难甚至是不可能的。同时,外部工作环境的变化,控制系统中元器件的老化或损坏和各种不可测干扰,所有这些因素使得描述被