信息检索模型风险及其评价方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wlszmf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息检索技术的不断发展,信息检索模型不同阶段出现的风险问题,如相关性估计中的风险,文档排序中的风险,查询扩展中的风险逐渐地被关注。研究这些风险问题的突破点是设计一种可以同时评价性能均值和模型风险的方法,量化这些风险的大小,进而再找出降低风险的策略。本文的研究重点有两个,其一是对信息检索风险评价指标的研究,具体工作是将基于偏差方差分解的风险评价指标从平均准确率(AP)一般化到其他评价指标,并将该指标中的目标模型设置得更加公平无偏。另一个研究重点是如何降低信息检索模型中存在的查询扩展失败的风险。针对该问题,本文提出了一种基于知识图谱的查询扩展方法来降低检索模型的风险,即增加了查询扩展模型中与查询相关的信息来降低风险,具体做法是从知识图谱中抽取与查询相关的若干实体及实体属性作为扩展词来重构查询,更好地表达用户的信息需求;且在计算扩展词权重时,参考了投资组合理论中的收益-风险分析方法,最大化扩展词和原查询的相关性收益,同时也最小化扩展词可能带来的查询漂移的风险,更进一步控制了查询扩展中的风险。  为检验本文所提出的基于偏差方差分解的风险评价方法的合理性,实验部分首先利用该评价方法重新评价了TREC Ad Hoc(1993-1999)和Web Track(2010-2013)两个任务上提交的模型检索结果,说明了所提评价方法对衡量模型整体性能的合理性,并利用偏差和方差对模型的有效性和稳定性之间存在的折中现象做了量化分析。接着针对本文所提基于知识图谱来降低查询扩展风险的策略,实验部分在两个网页数据集上验证了该策略的有效性,并和基于伪相关反馈的查询扩展模型(RM3)做了对比分析,实验结果表明该本文所提扩展模型在有效性和稳定性上都优于RM3。
其他文献
背包问题属于NP难问题,解决背包问题是解决组合优化所面临的问题之一,在现实中有着广泛的应用背景,开展对解决复杂组合优化问题的算法研究具有一定的理论意义和实用价值。本
随着后基因组时代的到来,当今对于生物基因组序列一级结构的了解还远远不够,还必须明白其中基因是怎样组织起来的,每个基因的功能是什么,又是怎样随发育调控和微环境因素的影
随着通信技术的日益成熟,无线多播在很多实际通信场景中越发占有主导地位。同时应用设备的复杂化和服务需求的多样化也对网络中的多播性能提出了更高的要求。本文从时间和空间
Internet的迅猛发展极大地推动了光网络研究的进展,随着波分复用(WDM)技术的日趋成熟,限制光网络传输容量的因素已不再是光纤带宽,而是网络中路由器、交换机和复用器等电子设
随着科学技术的快速发展,越来越多的高性能计算设备被应用到科学与工程计算领域,但是,由于没有找到合适的应用以及管理不当等原因,这些独立部署并且耗资巨大的设备大部分并没
企业应用集成是企业信息技术发展的一个主要趋势,它是企业面向过程化和实现业务Web化的基础。企业应用集成不仅是企业IT部门的技术问题,还是企业管理理念的转变和组织结构创
随着互联网的日益发展,OpenAPI的数量与日俱增,同时Ajax API作为OpenAPI中的重要组成部分,越来越受web应用开发者的青睐。然而,由于互联网环境的不确定性,很难保证Ajax API在
言语感知与言语生成过程是复杂的神经控制过程,探索这一机制,不仅更有利于了解大脑功能的机制,同时也将助于全国数以百万计的言语障碍患者的治疗与康复。在过去的研究中,人们
作为现代控制领域的一个重要分支,混沌系统的控制和同步技术近年来受到了国内外的控制界的广泛重视。本文就此领域的相关问题展开系列研究,主要研究了混沌系统的控制和反控制
伴随着Internet的飞速发展,Web技术在各行各业得到了广泛应用,并发挥着越来越大的作用,同时也加快了国家的信息化进程。特别是Web2.0时代的到来,越来越多的政府机构、公司企业和