信息检索中的查询扩展与检索模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:herirong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。如何在海量数据中找到与用户查询相关的信息,成为研究热点。当前的信息检索系统普遍存在着检索结果不全和不准确两大问题。针对这些问题,本文的研究主要涉及信息检索中的检索模型、上下文分析、查询优化等技术,同时研究自动文摘、机器翻译等技术如何融合于检索任务来改进检索性能。  主要研究包括:  1.查询扩展  由于用户不能够准确构造表达信息需求的检索表达式,导致检索效率低下甚至失败,因此需要信息检索系统对用户提交的原始查询进行优化。目前查询优化包括两种途径,查询扩展和语词重新加权。其中查询扩展通常利用词典或者词与查询的统计信息来完成,如何确定扩展词与查询的相关信息是查询扩展要解决的主要问题,而怎样合理地利用文档上下文挑选与原始查询词关系密切的词来进行有效的查询扩展是研究的关键所在。  针对经典方法中不尽合理的词汇独立假设,我们希望将词汇之间的相互关联关系考虑进来。通过对文档集合中数据的一些统计信息比如上下文信息等反映词汇搭配使用关系等信息的有效利用,结合查询条件设计相关算法来获得能够反映查询条件主题并由查询条件所触发的词汇,也就是利用这些信息来更准确的捕获用户的信息需求。  2.面向检索的文摘  本文对机械文摘的一般方法进行了研究,在此基础上开展了信息检索环境下的文摘的应用的研究。研究如何利用了上下文独立标准文摘方法和偏向查询文摘方法。针对检索任务,哪些文摘因素能对检索任务提高性能有帮助。文摘评价也是当前研究热点,本文研究检索任务下,如何评价文摘的效能。  3.检索模型  目前的检索系统普遍存在两个问题:返回信息不准确和返回信息不完全。解决这些问题可以从两个方向入手:利用信息检索相关技术,如反馈、查询扩展、辞典等。另一个方向就是从检索模型本身入手。本文就是研究通过改进检索模型来提高检索性能。  语言模型自1998年由Ponte等人提出后,一直是检索模型研究的重点。本文研究在语言模型框架下,如何利用文摘来改进检索。  4.检索实验系统  在本文研究的基础上,搭建了一个面向主题的信息检索实验系统。在这个系统中,可以对信息检索中的关键步骤进行算法改进和实验,并保留这些结果。根据这些分析结果,在进行不同的信息检索工作时,就可以选择比较合适的方法来进行,从而提高信息检索的性能。  在系统设计中大量地采用了面向对象领域的设计模式技术来支持信息检索系统中检索模型、索引方法、查询反馈等关键组成部分的设计。同时,该系统框架灵活的体系结构能够方便地支持新的需求的设计开发。本系统可以根据新的模型和查询反馈方法很方便地生成相关的实验系统,有效地增加了信息检索系统的开发效率。
其他文献
数据流上的突变检测在网络流量监测,金融风险分析,传感器网络等领域都有着十分广泛的应用。传统的突变检测算法只能对流上的聚集函数值进行检测,而在现实应用中,还有相当一部
与传统的C/S模式相比,移动代理技术有很多优点。但是移动代理的安全问题却使移动代理技术在走向商业应用的路上困难重重。究其原因是移动代理的安全问题缺乏合理的解决方案。
随着计算机技术的发展和工业生产及国民生活对智能测控仪器仪表的需求增加,虚拟仪器己经成为仪器仪表发展的重要方向。本文简要介绍了电表校验的意义和现状,指出了传统电表校验
嵌入式移动实时数据库管理系统是嵌入在各种设备,特别是移动设备的支持移动计算的数据库管理系统。数据字典是数据管理的一个重要组成部分,嵌入式移动实时数据库管理系统要求
目前市场上数字图象采集设备种类繁多,品牌各异,应用领域也不尽相同。商家在开发各自数字图像采集设备的时候,提供给用户用于二次开发的专用SDK(Software development kit)均
Web服务是一个松耦合的、平台独立的、自包含的、可调用的Web应用程序,是实现面向服务计算的关键技术。由于对异构环境的良好支持、开放性和跨平台等特点,使得Web服务在许多
由于计算机图形学和软硬件技术的快速发展,虚拟现实技术越来越为人们所重视。基于VRML的虚拟现实技术的应用一直是计算机应用领域的热点,虚拟现实技术的应用价值已经得到了广
随着数字科技的发展,MP3凭借极高的压缩比与极小的失真,成为目前最受欢迎的数字音乐压缩格式,广泛在网络上流行。从大量的MP3音乐资料中检索出自己想要的歌曲,目前只能通过查询歌
回归测试是在软件开发过程中为确保软件质量进行的一种常用的验证测试方法。针对如何减少回归测试成本、如何进行测试用例选择,以提高测试效率是回归测试研究中的一项重要工
在信息截获的应用背景下,通信信道一般具有高误码率的特点。本文定位于在信息截获背景下的数字分接阶段的实时码速恢复问题的研究。为了解决该问题,本文分别从以下四个方面展