论文部分内容阅读
搜索引擎的出现使人们获取信息的效率大大提高,怎样从海量的搜索结果中将用户最关心、最需要的信息排在返回列表的最前面,即搜索结果的排序问题是信息检索领域研究的关键问题之一,尤其是对搜索结果中位置靠前的页面进行排序优化,具有相当重要的研究意义和实践价值。排序学习,就是利用机器学习方法来解决搜索排序问题,其在信息检索、推荐系统、自动问答等方面有着广泛应用。现有排序学习方法仅考虑了查询与页面之间的相关度与重要度,没有考虑页面彼此之间的相似度信息。本文在现有的Listwise类排序学习方法的研究基础上,提出利用文档之间的主题相似度进行加权投票的方法,进一步提高了模型的排序准确性。本文的主要研究工作如下:1)本文提出了一种利用文档之间相似度来调整排序结果列表的方法,使文档的评分方式由仅依靠重要度和相关度评分,扩展为可以通过各文档的相似度进行加权投票。该方法充分利用了待排文档之间的内在关联与文本特征,以更全面的角度综合地考虑了搜索排序中文档的重要度、相关度与相似度问题,从而得到更合理的排序结果。2)本文提出的主题相似度模型,从特征词与主题分别两个角度来计算文本间的相似度,综合了两种模型各自的优势,不仅考虑了文档词级别的相似还考虑了文档之间的主题分布差异,提高了判别效果。3)实现了基于主题相似度的ListSimi算法。实验证明,在OHSUMED和TD2003数据集上ListSimi算法能够显著的提升现有排序学习算法的准确度,尤其是对排序位置靠前的文档,准确度提升非常明显。对于一个商业搜索引擎,搜索结果列表中靠前的文档检索准确度直接影响着用户的搜索体验与满意程度,这说明本文具有相当重要的研究意义与实践价值。