基于依存与排序学习技术的冗长查询处理

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhangnly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户一般通过搜索引擎来查询所需信息,而搜索引擎的返回结果很多,每个检索结果并不一定都是符合用户需求的。同时由于教育文化背景的差异,用户即使有相同的查询意图,但其提交的查询关键词也是千差万别。因此,用户输入相同的查询关键词,返回同样的结果并不能令每个用户都满意。在信息检索系统中,一般通过查询扩展技术来提高检索性能。用户通常有时会把自己的详细需求信息全部输入至信息检索系统进行检索,即用户会输入冗长查询。这就给信息检索系统带来了压力,迫使检索系统不断进行改进以满足用户输入的冗长查询的需求。目前以往的搜索引擎在处理冗长查询时性能都会下降,检索结果不能聚焦在查询主题上,返回的信息不能满足用户需求。本文提出了两种冗长查询处理方法:基于依存关系的冗长查询重构模型方法;基于语义与排序学习技术的冗长查询处理方法。基于依存关系的冗长查询重构模型方法区别于基于关键词的处理方式,而是针对冗长查询自身所具有的特征,冗长查询中的词项间具有良好的语法关系。本方法对文档进行依存关系分析,由于依存关系类型很多有些会产生噪音,因此本文对依存关系类型进行了筛选抽取有效关系对,这点达到了缩短查询词的效果,之后对不同的关系对按其在重构模型中的重要程度分配不同的权重,这点达到了重新加权的效果。实验验证了本方法对特别是对低召回率的检索性能的提升作用,MAP和P@N两个评价指标上都有很大提升。基于语义与排序学习技术的冗长查询处理方法。利用文档在不同主题空间上的分布以及计算其香农距离,并利用排序学习的方法对原始检索结果进行重新排序。这说明排序学习方法能够为冗长查询处理技术提供较大帮助。实验结果表明,对于冗长查询,不能像传统的查询扩展那样认为查询中每个词是相互独立的来看待,要充分利用其特有的依存语义信息才能够对其检索性能进行改进。本文的实验所用的语料均来自公开数据集TREC标准语料,运用多种方式对本文的实验结果进行了评测,实验结果表明本文提出的两种对于冗长查询的处理技术对检索系统性能有了较大的改进。
其他文献
随着互联网技术的不断发展和网络的大规模普及,Web服务越来越成为重要的媒介手段,如何对海量的Web服务进行发布和发现是当前Web服务要解决的关键问题。当前应用于Web服务发现
  随着计算机技术的进步和软件规模的不断扩大,各种网络应用系统对于安全高效的访问控制策略,提出了越来越高的要求。传统的基于角色的访问控制模型受限于当时的技术水平,没有
在计算机网络的发展过程中,由于网络技术的不断改进,运营商可能会在不同时期建立了几套不同的网络以提供给客户最优秀的网络服务。但在目前以太网技术大行其道的情况下,绝大
模糊限制语是一种广泛使用的指示词,用来指示使用者模糊的、不确定的观点或表述(即模糊限制信息)。在自然语言处理研究中,模糊限制信息的识别对多类信息抽取任务有十分重要的
计算机动画是计算机图形学和艺术相结合发展起来的高新技术,它主要利用数学、艺术、计算机科学和其它相关知识,在计算机上产生自然连续虚拟真实画面,使个人想象力和艺术才能
社交网络在给用户带来便利的同时,也存在个人隐私泄露的严重风险。论文结合课题组所承担的重大科技专项,研究社交网络隐私保护技术,具有重要的研究意义和应用价值。论文首先
  随着 Internet 技术的迅猛发展,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等日趋明显,针对以上情况,主题搜索引擎悄然出现。主题爬虫作为主题搜索引擎的核
互联网和无线网络为信息传递和交换提供了广泛渠道。由于互联网的兴起,信息安全成为了信息科学和通讯中最重要的因素之一。信息隐藏也被应用于军事、情报机构、非法和犯罪活动
随着网络信息化的快速发展,网络用户的持续增加,互联网由传统的PC时代逐渐向移动时代转变,用户对于存储的需求持续增加,传统的存储模式已逐渐无法满足用户对于存储的需求,一种新的
在经济全球化的时代,越来越多的经济活动是以项目的形式执行的,并且通过项目管理的方式,对项目中的各种资源(人员、设备等)进行有效的组织,控制项目的执行成本,在一个确定的时间范