论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网成了全球最大、最广泛使用的信息库,如何有效检索这些海量信息成为当前重要的研究课题,因而信息检索技术越来越受到人们的重视。信息检索是指从大量的实例集合中查找到与给定的查询(query)相关的信息子集,是处理海量信息的重要手段。目前绝大多数的信息检索系统中,其检索出来的信息(如文档)都以排序的方式返回给用户。因此,如何高效地对信息进行排序成为信息检索研究的核心问题之一。
传统的排序学习方法包括无监督学习和监督学习方法。无监督学习是基于经验估计的,对搜索结果有一定的盲目性,效果不是很好。监督学习需要大量的人工标注样本,而标注样本是一项耗时长、难度大且代价昂贵的工作。与此同时,无标注样本数量巨多、获取简单且廉价,如何利用无标注样本辅助学习,也成为一个重要的研究课题。除此之外,传统的排序学习方法以相似度为基础,只关注局部信息,使得一些相似度不高却高度相关的实例排名靠后,从而影响了排序性能。为解决上述问题,本文将基于图的半监督学习应用到信息检索中,实现了基于图的半监督排序学习。
已有基于图的半监督排序方法只把查询作为标注信息,从某种程度上说并没有合理利用标注信息,因而本文从合理利用标注信息入手,结合图中的流形结构,分析得出处于同一流形结构中节点间的影响程度要大于处于不同流形结构中节点间的影响程度。基于以上分析本文提出并实现了基于权重调节的半监督图排序算法,并成功应用于文档检索中。
为了更有效的利用同一实例的多种表现形式,使得在克服单图学习缺陷的同时提高排序性能,本文还将基于图的半监督排序学习扩展到多视图学习中,提出了两种不同的多图融合方法—图融合算法和结果融合算法,文中还结合损失函数从理论上对两种算法进行了比较分析,并将它们成功应用到论文检索中。