基于主题相似度的排序学习算法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：xuexuexuehehehe

【摘要】

：

搜索引擎的出现使人们获取信息的效率大大提高,怎样从海量的搜索结果中将用户最关心、最需要的信息排在返回列表的最前面,即搜索结果的排序问题是信息检索领域研究的关键问题

【作者】

：

刘勇

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2016年期

【关键词】

：

信息检索排序学习主题模型文本相似度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎的出现使人们获取信息的效率大大提高,怎样从海量的搜索结果中将用户最关心、最需要的信息排在返回列表的最前面,即搜索结果的排序问题是信息检索领域研究的关键问题之一,尤其是对搜索结果中位置靠前的页面进行排序优化,具有相当重要的研究意义和实践价值。排序学习,就是利用机器学习方法来解决搜索排序问题,其在信息检索、推荐系统、自动问答等方面有着广泛应用。现有排序学习方法仅考虑了查询与页面之间的相关度与重要度,没有考虑页面彼此之间的相似度信息。本文在现有的Listwise类排序学习方法的研究基础上,提出利用文档之间的主题相似度进行加权投票的方法,进一步提高了模型的排序准确性。本文的主要研究工作如下：1)本文提出了一种利用文档之间相似度来调整排序结果列表的方法,使文档的评分方式由仅依靠重要度和相关度评分,扩展为可以通过各文档的相似度进行加权投票。该方法充分利用了待排文档之间的内在关联与文本特征,以更全面的角度综合地考虑了搜索排序中文档的重要度、相关度与相似度问题,从而得到更合理的排序结果。2)本文提出的主题相似度模型,从特征词与主题分别两个角度来计算文本间的相似度,综合了两种模型各自的优势,不仅考虑了文档词级别的相似还考虑了文档之间的主题分布差异,提高了判别效果。3)实现了基于主题相似度的ListSimi算法。实验证明,在OHSUMED和TD2003数据集上ListSimi算法能够显著的提升现有排序学习算法的准确度,尤其是对排序位置靠前的文档,准确度提升非常明显。对于一个商业搜索引擎,搜索结果列表中靠前的文档检索准确度直接影响着用户的搜索体验与满意程度,这说明本文具有相当重要的研究意义与实践价值。

其他文献

一种基于RFID的多标签识别防碰撞算法设计

无线射频识别(RFID)属于新近出现的先进的无线通信技术。能够利用非接触的工作方式实现远距离对待识别目标信号进行自动读写识别，信息读取速度快，存储量大，穿透性强，在工作中被广

学位

无线射频识别标签信息防碰撞算法时隙处理混合模式

基于词对伪文档的短文本主题模型研究

随着信息技术的不断发展,人们每天都会面对超过自身接受范围的信息量。因此对文本进行主题分类,并为人们推送特定的信息就成了一个热门的研究议题。众多在线社交平台和在线新

学位

主题模型主题聚类机器学习短文本文本分析

基于分布式媒体素材的课件分层设计

论文对课件制作所涉及的媒体素材库进行了研究,提出了一种新的数据模型,并在该基础上采用课件分层设计方法.最终实现了基于媒体素材的分层课件制作工具.该工具可以利用媒体素

学位

远程教育媒体素材库分层设计课件

基于Spark的大规模分布式矩阵运算算法研究与实现

近年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用数据呈爆炸性增长,全球进入到了一个全新的“大数据”时代,引起业界、学术界和各国政府的高度关注。大数据中往往

学位

大数据分布式矩阵运算并行化算法机器学习

综合电信业务本地网实时计费系统

在现代电信管理中,计费系统是电信企业实现与客户的服务关系的纽带,是企业效益的最终体现. 该文主要从以下四个方面介绍了计费系统:(1)从中国电信的发展现状提出"九七工程"的

学位

综合电信本地网电信管理计费系统电信企业

Petri网进程表达式的应用研究

该论文首先在进程,进程表达式的基础上定义了进程表达式子式,全局满进程,闭包项等概念,通过进程分析有界Petrie网及其特殊子类标识S-图的动态性质.进而按运算符的多少引入一

学位

基础子进程进程表达式全局满进程闭包项正规表达式出现序列Petri网

面向大规模数据处理的PVFS文件系统改进与应用研究

在大规模数据处理中,文件系统是非常重要的环节之一。文件系统的性能直接影响到应用的性能和处理效率。随着高性能和分布式计算架构的发展,并行文件系统受到了越来越多的关注

学位

并行文件系统PVFS动态扩展数据迁移缓存管理预读取算法

基于虚拟化技术的内存共享系统关键技术研究

学位

网格应用中优化数据重用的任务调度技术研究

近十年来，多核、众核体系结构逐渐成为主流，如何充分利用多核、众核体系结构上丰富的计算资源成为学术界和工业界研究的热点。异步的任务图并行能发掘应用中更多的并行性而受到

学位

网格应用任务调度机制数据重用分区特征

基于SaaS的多租户应用平台架构研究和实现

传统的软件都是针对某个用户单独定制，无法同时为多个用户提供服务。SaaS是一种具有多租赁性的软件运营模式，在这种模式下同一套软件将可以同时出租给多个租户使用，租户间的数据

学位

多租赁性软件运营模式应用平台面向方面编程请求处理模型

基于主题相似度的排序学习算法研究

与本文相关的学术论文