信息检索中排序学习方法的研究

来源 :大连理工大学 | 被引量 : 16次 | 上传用户：psoftw

【摘要】

：

信息检索的核心问题是排序,即如何把用户最需要的信息排列在返回列表前面。目前信息检索排序方法主要分成两类：一类是以网页文档内容为基础,判断文档和用户查询的相关性的方法

【作者】

：

林原

【出处】

：

大连理工大学

【发表日期】

：

2012年01期

【关键词】

：

信息检索排序学习损失函数特征选取查询扩展

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索的核心问题是排序,即如何把用户最需要的信息排列在返回列表前面。目前信息检索排序方法主要分成两类：一类是以网页文档内容为基础,判断文档和用户查询的相关性的方法；另一类则是以网页链接分析为基础,判断网页在网络中的重要程度的方法。两类方法都有各自重要的意义,对于满足用户需求有很强的互补作用。一般的检索策略是选择其中的一种排序结果作为排序依据,而这样仅选择单一的排序方法的策略,越来越难满足用户对于检索结果准确率的要求。因此,信息检索领域开始了排序方法融合的研究。此方面最有成效的研究就是排序学习方法。它的基本要领是以机器学习模型为基础,以信息检索排序方法作为特征,以文档和用户意图的相关性为判断条件,训练排序模型,对文档进行排序,从而有效地提高了排序准确率。本文在前人的排序学习研究基础上,主要对模型和损失函数进行了研究,进一步提高了排序学习模型的相关性预测能力。本文主要研究工作包括以下三方面：(1)对于已有的Listwise方法损失函数进行研究,探索改进Listwise方法的可能性；针对已有的Listwise框架损失函数所存在的问题,提出了一种基于组样本的排序学习框架,并对其进行改进。提出了两种组样本的构造方法：一种是One-group样本,该样本是由一个相关性较高的文档与一个相关性较低的文档集合构成的；另一种是Group-group样本,该样本由一组相关性较高的文档集合与一个相关性较低的文档集合所构成。根据这两种组样本定义不同的损失函数用于训练排序模型的。实验表明：基于组的排序学习方法能够有效的改善已有似然损失函数和交叉熵排序学习方法的性能；对于排序学习组样本的研究能够有效地提高检索结果的排序准确率。(2)排序学习的特征选取对于排序模型的预测结果有着很大的影响,而排序学习对其特征领域的研究却很少,有鉴于此,本文基于两方面的考虑对排序学习特征进行了研究。第一,探索如何利用已有的排序学习特征为基础,挖掘新的特征构造模式,采用半监督学习方法,利用奇异值分解方法,从非标注语料中获取新的特征；第二,探索如何构建新的特征,用于排序学习模型的训练。以往的信息检索方法倾向于选择单一的方法和参数作为排序的唯一标准,而对于一种模型来说,单一的方法或参数很难发挥该模型的全部功效,本文以语言模型方法为基础,采用多内容域、多平滑方法、多参数的形式构造排序特征,用以丰富特征空间,同时将排序学习应用于语言模型多种平滑方法的融合,有效地提高了语言模型方法的相关性排序准确率。在Letor数据集上的实验结果,表明将新特征集合加入到已有的排序学习特征空间后,能够显著地改善已有的排序学习方法排序准确率,因此本文所提出的特征提取方法能有效地改善排序模型的性能。(3)排序学习方法虽然源自于信息检索中的相关性排序问题,但是其模型和思想亦可用于信息检索的其他领域。社会化标注是一种很好的资源,提供了大量的有助于改善检索效果的信息,然而已有的查询扩展方法从社会化标注中提取扩展词,对原始查询性能的改善效果并不显著,因此本文采用排序学习方法对从社会化标注中进行扩展词提取,通过排序学习方法构造词排序模型将其应用于查询扩展过程当中,用于提高查询扩展方法的性能。在TREC数据集上的实验结果表明,基于排序学习的查询扩展方法在改善信息检索性能方面,要好于已有的基于伪相关反馈的扩展词提取方法,并为排序学习方法应用于其他领域的研究提供了一个新的思路。

其他文献

山西外贸增长方式转变与产业结构升级的互动研究

山西有着丰富的资源，是我国重要的能源基地。然而，依托于资源优势的山西煤焦“一枝独秀”，新兴产业比重较低，产业结构不合理，结构性矛盾突出，具体表现为：第一，产业结构比例失衡。山西

学位

外贸增长方式产业结构转变升级互动

交通银行基金代销系统的设计与实现

随着交通银行核心账务系统实现全行大集中。基金代销外挂系统需保持同步一致并进行升级建设。所以有必要重新规划建设银行基金代销大集中系统,使之能更好地适应现在以及未来

学位

基金代销系统大集中Spring

地佐辛对于老年患者全麻苏醒期躁动的影响

目的：研究地佐辛用于预防老年患者全凭静脉麻醉苏醒期躁动的有效性及安全性。背景:随着人口老龄化社会的来临，老年患者手术量逐年增加。由于老年人合并系统疾病较多。因此，给麻

学位

地佐辛老年患者全麻躁动

对教书育人的理性思考

教书育人是社会主义教育赋予教师的职责。实施素质教育，教书与育人理当一体化。教师要适应时代要求，提高教书育人水平，培养高素质人才。树立素质教育观念是教书育人的思想保证

期刊

教师教书育人素质教育

房产交易税收征管系统的设计与实现

随着计算机技术的不断持续发展,当前正在使用的房产交易税收征管系统还是C/S模式的结构,较为落后。为适应最新的改革需要以及提高办事人员的工作效率,使房产税收交易的实现高

学位

房地产交易征收管理结构化分析面向对象

我国大学“行政化”的三大成因

<正>我国大学行政化绝不是凭空产生的,而是有其深厚的历史文化背景、社会心理基础和体制根源。全面分析和准确把握我国大学行政化的背景、基础和根源,是有效推行大学"去行政

期刊

大学行政化任命制历史文化背景体制根源社会心理基础大学“去行政化”我国大学

玻纤布增强新型杂环聚芳醚树脂基层压板的研究

科技的发展对印制电路用层压板的力学性能、电性能、耐电弧性、热导率以及阻燃性能提出了更高的要求。提高层压板树脂基体的性能成为开发高性能层压板的重要因素。传统层压板

学位

聚芳醚杂萘联苯结构耐高温可溶解层压板共混

基于流动性风险的资本资产定价模型

在现有的资产定价理论基础上,研究了考虑流动性风险因素的风险资产定价问题。首先在无套利下对流动性风险进行定价,得到流动性风险的市场价格,进而给出了无风险资产和风险资

期刊

流动性风险无套利风险构成资本资产定价模型

虚拟研发组织信任关系研究

虚拟研发组织是21世纪最具资源优化和市场反应能力的研发形式,代表着国际研发活动的发展趋势,但其在中国的实践因为信任缺失而发展缓慢。探讨虚拟研发组织信任关系的特殊性,

学位

虚拟研发组织信任信任关系科研生产关系

基于特征分析的个性化摔倒检测

随着世界老龄化进程的加剧,人口呈现出老龄化、高龄化、空巢化三大特征,这给国家和社会带来了巨大的压力,引起了整个国际社会的关注。摔倒是老年人常常发生的意外,因此老年人

学位

摔倒检测个性化检测模型特征选择算法C4.5算法朴素贝叶斯算法

信息检索中排序学习方法的研究

与本文相关的学术论文