基于主题相似度的排序学习算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xuexuexuehehehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎的出现使人们获取信息的效率大大提高,怎样从海量的搜索结果中将用户最关心、最需要的信息排在返回列表的最前面,即搜索结果的排序问题是信息检索领域研究的关键问题之一,尤其是对搜索结果中位置靠前的页面进行排序优化,具有相当重要的研究意义和实践价值。排序学习,就是利用机器学习方法来解决搜索排序问题,其在信息检索、推荐系统、自动问答等方面有着广泛应用。现有排序学习方法仅考虑了查询与页面之间的相关度与重要度,没有考虑页面彼此之间的相似度信息。本文在现有的Listwise类排序学习方法的研究基础上,提出利用文档之间的主题相似度进行加权投票的方法,进一步提高了模型的排序准确性。本文的主要研究工作如下:1)本文提出了一种利用文档之间相似度来调整排序结果列表的方法,使文档的评分方式由仅依靠重要度和相关度评分,扩展为可以通过各文档的相似度进行加权投票。该方法充分利用了待排文档之间的内在关联与文本特征,以更全面的角度综合地考虑了搜索排序中文档的重要度、相关度与相似度问题,从而得到更合理的排序结果。2)本文提出的主题相似度模型,从特征词与主题分别两个角度来计算文本间的相似度,综合了两种模型各自的优势,不仅考虑了文档词级别的相似还考虑了文档之间的主题分布差异,提高了判别效果。3)实现了基于主题相似度的ListSimi算法。实验证明,在OHSUMED和TD2003数据集上ListSimi算法能够显著的提升现有排序学习算法的准确度,尤其是对排序位置靠前的文档,准确度提升非常明显。对于一个商业搜索引擎,搜索结果列表中靠前的文档检索准确度直接影响着用户的搜索体验与满意程度,这说明本文具有相当重要的研究意义与实践价值。
其他文献
无线射频识别(RFID)属于新近出现的先进的无线通信技术。能够利用非接触的工作方式实现远距离对待识别目标信号进行自动读写识别,信息读取速度快,存储量大,穿透性强,在工作中被广
随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新
论文对课件制作所涉及的媒体素材库进行了研究,提出了一种新的数据模型,并在该基础上采用课件分层设计方法.最终实现了基于媒体素材的分层课件制作工具.该工具可以利用媒体素
近年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用数据呈爆炸性增长,全球进入到了一个全新的“大数据”时代,引起业界、学术界和各国政府的高度关注。大数据中往往
在现代电信管理中,计费系统是电信企业实现与客户的服务关系的纽带,是企业效益的最终体现. 该文主要从以下四个方面介绍了计费系统:(1)从中国电信的发展现状提出"九七工程"的
该论文首先在进程,进程表达式的基础上定义了进程表达式子式,全局满进程,闭包项等概念,通过进程分析有界Petrie网及其特殊子类标识S-图的动态性质.进而按运算符的多少引入一
在大规模数据处理中,文件系统是非常重要的环节之一。文件系统的性能直接影响到应用的性能和处理效率。随着高性能和分布式计算架构的发展,并行文件系统受到了越来越多的关注
学位
近十年来,多核、众核体系结构逐渐成为主流,如何充分利用多核、众核体系结构上丰富的计算资源成为学术界和工业界研究的热点。异步的任务图并行能发掘应用中更多的并行性而受到
传统的软件都是针对某个用户单独定制,无法同时为多个用户提供服务。SaaS是一种具有多租赁性的软件运营模式,在这种模式下同一套软件将可以同时出租给多个租户使用,租户间的数据