基于语言模型的信息检索中负反馈技术的研究与实现

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户:flurryzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是网络经济的时代,伴随着互联网的迅速发展,internet上的信息量在不断增加,然而如何从浩瀚的信息海洋中得到所需要的信息就显得更加有意义。在信息检索中,搜索引擎使用排序算法对被检索文档根据与查询的相关性大小进行排序,研究者们提出了关于相关性的数学检索模型。语言模型是目前性能较好的模型。对于困难查询(difficult query)来说,检索结果较差并且排序靠前的文档很少有与用户需求相关的,怎样在语言模型下使用那些不相关的信息来提高检索精度呢?就提出了相关反馈技术的特殊情形即负反馈技术。本文主要提出了基于语言模型的信息检索中正相关反馈和负反馈相结合的方法,在语言模型框架下应用类似于向量空间模型中的Rocchio反馈方法的反馈算法,对查询进行扩展和查询词的概率进行修改。本文主要考虑初次检索结果的前十个文档,作为查询扩展的局部文档情形,一般传统地认为这十个文档都是相关文档,用来进行伪相关性反馈。本文是将前十个文档分开考虑,根据与标准的相关性判断文件的比较,将它们分为与查询相关的文档集和与查询不相关的文档集,分别与原查询生成正模型和负模型,即在正模型中出现又在负模型中出现的词加到查询中对查询进行扩展,并且适当地增加在相关文档中出现的查询词的概率,减少在不相关文档中出现的查询词的概率,即把相关性反馈和负反馈相结合来提高扩展后查询的精确度,从而使得新查询模型的检索结果性能较伪相关性反馈后的查询和原查询都有很大的提高。
其他文献
超声成像技术由于其独具的实时性、无损性、廉价性、可重复性好和灵敏度高等优点使其成为临床诊断的首选影像方法。然而由于超声成像机制导致了医学超声图像质量低下,从而使得
普适计算致力于将计算融入人们的日常生活中,将由计算和通信节点及系统组成的计算空间与人们生活的物理空间无缝地集成为和谐的人机交互信息环境。上下文感知技术是普适计算中
在人类的各种运动控制任务中,语音生成任务恐怕是最为复杂的。在当前真正具有生物学意义的语音生成和获取神经网络模型中,DIVA模型的定义和测试相对而言是最彻底的,并且是一
随着计算机和网络技术的快速发展,我们的生活和工作变得更加丰富、便捷和高效。但是,在以信息为第一财富的当今社会,企业和个人的信息资料都因为网络的开放性而存在着安全隐患,计
无线传感器网络是由大量具有信息采集、数据处理和传输功能的,集成有数据采集单元、数据处理单元、数据通信单元和能量供应单元的微型传感器节点自组织形成的无线分布式网络系
在流媒体系统中,媒体资源的有效传输是其关键问题之一,而以C/S模式、组播模式以及内容分发网络模式为基础的流媒体系统,都存在着缺陷。目前,P2P技术是能够处理流媒体传输问题
近几十年来,随着计算机技术和图像处理技术的日益发展,运动视频中的目标检测已经广泛运用到国防与国民经济建设的诸多领域。而随着其应用领域的不断扩大,人们对视频序列中运
随着网格计算、P2P计算、普适计算、云计算、Ad Hoc等大规模分布式应用系统的深入研究,互联网已经转变为一种开放式网络环境。传统的集中式访问控制模型已经无法满足开放网络
近年来,随着信息技术的飞速发展,嵌入式产品被广泛运用到人们的日常生活中,嵌入式实时操作系统(RTOS)亦随之逐渐渗透到学术界、工业界等领域。RTOS是对外部事件响应经过优化的操
计算机网络最初设计的目标,只是实现单纯的端到端数据传送,发展至今的互联网,几乎所有的流量都是建立在TCP/IP架构之上,尽管设备性能有了飞跃性的提高,但网络本身的架构却没