论文部分内容阅读
个性化信息检索针对用户个人兴趣偏好优化文档排序,被认为是现有搜索引擎改善用户检索体验的一种有效途径。个性化信息检索以用户为中心提供有针对性的检索结果,因此不仅考虑查询和文档的匹配度,还考虑文档和用户兴趣偏好的匹配度。用户历史包含用户丰富的信息,是获取用户兴趣偏好的最佳途径,成为个性化信息检索研究的焦点。为了探索不同的用户历史在检索中的作用,本文量化分析了用户历史与检索结果的相关性,探讨了如何利用短期历史、长期历史、以及综合利用二者以提高个性化检索性能的方法。1)针对用户历史与检索结果的关系,量化分析了用户长短期历史与用户查询和点击的相关性。本文采用向量空间模型框架,从以下四个方面分析了用户长短期历史与查询和点击的关系:相关比例、相关程度、是否存在线性关系和具体内容上的差异。分析发现79.55%的查询可以从用户历史中获取相关信息,其中短期历史覆盖的比例较大(71.23%),相关程度也较高;而针对同一个查询,不同的用户历史所提供的相关信息不尽相同,彼此的结合有可能进一步提高检索性能。2)针对如何合理利用短期历史的问题,提出了一种短期历史权重自适应的个性化检索方法。为了合理分配短期历史权重,本文以短期历史和当前查询的相关强度为核心依据,以当前查询、短期历史查询、短期历史点击三个维度上的用户行为特征为线索,建立了SVM回归模型对短期历史的权重进行预测。实验表明,该方法能够根据具体的检索环境为每个查询的短期历史动态分配权重,有效提升了个性化检索性能。3)针对如何有效利用长期历史的问题,本文引入增量层次聚类算法对长期兴趣建模,并在此基础上建立新的查询模型。长期历史内容丰富但主题相对分散,并随着用户的使用不断积累更新,因此长期历史中包含很多与当前查询无关的内容。针对该问题,本文采用增量层次聚类算法渐进地构建用户长期兴趣树,并使用对当前检索有最大帮助的兴趣簇估计长期兴趣模型,从而对用户查询进行有益补充。实验证明,基于长期历史增量层次聚类的个性化检索方法显著优于现有基于长期历史的检索方法,在一定程度上解决了具有多样性和动态性的长期历史的利用问题,改善了个性化检索性能。4)在上述研究的基础上,设计了一种基于用户长短期历史融合的个性化检索框架。用户长短期历史对检索结果的作用不同,本文的模型将二者的不同作用综合作用于查询和文档,一方面根据长短期历史更准确地估计用户查询,另一方面考虑了文档相对于用户的重要性差异。实验中全面比较了不同用户历史的各种组合,结果表明长短期历史融合作用于查询的效果优于只使用一种历史的情况,而同时作用于查询和文档可以获得最佳的检索性能。