论文部分内容阅读
随着网络的发展,网络资源呈现突飞猛进的增长,这给WEB用户带来了诸多不便,搜索引擎应运而生。然而不同背景、不同目的、不同时期的用户的信息需求往往是不同的,搜索引擎面对不同的用户都会给出相同的检索结果,这显然不能很好的满足用户的信息需求。个性化的信息检索技术被认为是解决该问题的重要技术。个性化信息检索技术将根据用户的兴趣给出相应的检索结果,可以最大限度的满足用户的信息需求。本文围绕个性化信息检索进行了以下三个方面的研究:本文的主要研究内容:1.个性化潜力分析。对于同一个查询词,不同的用户对信息的需求往往是不同的,我们将用户的需求差异称为查询词的个性化潜力。本文采用Kappa一致性检验衡量查询词的个性化潜力,并且对查询词的个性化潜力分布进行了分析。查询词的个性化潜力分布表明绝大多数查询词的个性化潜力较大,这也告诉人们从事个性化信息检索研究的必要性。2.实验数据加工算法。个性化信息检索研究面临的一个较大的障碍是缺乏真实有效的实验数据,针对该现象,本文提出了依据Sogou日志从网络上获取真实的WEB数据。网络资源虽然丰富但却充斥着很多垃圾信息,必须将这些垃圾信息过滤掉。为此,本文对数据加工算法进行了相应的研究,提出了主动学习算法和基于Co-training的主动学习算法用于数据加工。实验表明基于规则和逻辑回归的Co-training算法不仅性能最优,而且可以在很大程度上节省数据加工过程中需要的人工工作量。本文将该方法应用于WEB数据加工,并且得到了一个可以支持个性化信息检索的数据集。3.基于在线学习的个性化信息检索建模。用户的兴趣会随着时间发生变化,为此,本文提出在线学习的算法,实时的跟踪用户的兴趣,一旦用户的兴趣发生了变化,在线的学习算法就可以根据用户的点击对用户的兴趣模型进行学习,从而保证了用户兴趣始终是最新的,始终代表着用户当前的信息需求。本文提出了基于在线逻辑回归算法和SVM算法的个性化信息检索模型。实验结果表明这几个模型对检索性能均有一定程度的提高。