论文部分内容阅读
信息检索技术就是从信息的集合中识别和获取信息的技术,这种技术对人们的学习和科研有着重大意义,尤其是在互联网广泛应用的今天,信息数量激增,信息检索技术已经成为人们有效地开发和利用各种信息资源,更广泛、更快捷、更全面地吸收和获取信息的一条重要途径。如何在海量数据中找到与用户查询相关的信息,成为研究热点。当前的信息检索系统普遍存在着检索结果不全和不准确两大问题。针对这些问题,本文的研究主要涉及信息检索中的检索模型、上下文分析、查询优化等技术,同时研究自动文摘、机器翻译等技术如何融合于检索任务来改进检索性能。 主要研究包括: 1.查询扩展 由于用户不能够准确构造表达信息需求的检索表达式,导致检索效率低下甚至失败,因此需要信息检索系统对用户提交的原始查询进行优化。目前查询优化包括两种途径,查询扩展和语词重新加权。其中查询扩展通常利用词典或者词与查询的统计信息来完成,如何确定扩展词与查询的相关信息是查询扩展要解决的主要问题,而怎样合理地利用文档上下文挑选与原始查询词关系密切的词来进行有效的查询扩展是研究的关键所在。 针对经典方法中不尽合理的词汇独立假设,我们希望将词汇之间的相互关联关系考虑进来。通过对文档集合中数据的一些统计信息比如上下文信息等反映词汇搭配使用关系等信息的有效利用,结合查询条件设计相关算法来获得能够反映查询条件主题并由查询条件所触发的词汇,也就是利用这些信息来更准确的捕获用户的信息需求。 2.面向检索的文摘 本文对机械文摘的一般方法进行了研究,在此基础上开展了信息检索环境下的文摘的应用的研究。研究如何利用了上下文独立标准文摘方法和偏向查询文摘方法。针对检索任务,哪些文摘因素能对检索任务提高性能有帮助。文摘评价也是当前研究热点,本文研究检索任务下,如何评价文摘的效能。 3.检索模型 目前的检索系统普遍存在两个问题:返回信息不准确和返回信息不完全。解决这些问题可以从两个方向入手:利用信息检索相关技术,如反馈、查询扩展、辞典等。另一个方向就是从检索模型本身入手。本文就是研究通过改进检索模型来提高检索性能。 语言模型自1998年由Ponte等人提出后,一直是检索模型研究的重点。本文研究在语言模型框架下,如何利用文摘来改进检索。 4.检索实验系统 在本文研究的基础上,搭建了一个面向主题的信息检索实验系统。在这个系统中,可以对信息检索中的关键步骤进行算法改进和实验,并保留这些结果。根据这些分析结果,在进行不同的信息检索工作时,就可以选择比较合适的方法来进行,从而提高信息检索的性能。 在系统设计中大量地采用了面向对象领域的设计模式技术来支持信息检索系统中检索模型、索引方法、查询反馈等关键组成部分的设计。同时,该系统框架灵活的体系结构能够方便地支持新的需求的设计开发。本系统可以根据新的模型和查询反馈方法很方便地生成相关的实验系统,有效地增加了信息检索系统的开发效率。