论文部分内容阅读
信息在当今社会中占据着越来越重要的地位。可靠精确的信息,能够提高工作效率,缩短工作时间,有助于增强竞争力,做出科学的抉择。信息检索作为捕获用户需求信息的一种重要手段,已经逐渐被越来越多的人所关注。然而,传统的信息检索模型性能低下常常会出现错查和漏查的现象,检索出的结果很大程度上不能符合人们的检索意图。针对信息检索中出现的问题,本文对信息检索进行了相关的改进和研究。本文首先介绍了信息检索的原理,对传统的布尔模型、向量空间模型和概率模型进行了分析与比较。其中向量空间检索模型考虑比较全面,而且也是目前使用范围最广的传统检索模型。本文以向量空间检索模型为基础对其进行研究和改进。传统的向量空间模型将检索文档和查询语句中关键词看成彼此之间相互独立且没有语义关系的词汇。同时,文档不同部分对其主题思想的贡献程度是有差别的。传统向量空间模型并没有对出现在文档中不同部分的关键词进行区别对待。借助领域本体对检索进行语义扩展。本体包含概念的层次结构,支持对概念间关系进行推理。这就使得计算机可以理解人类的思维,方便人与计算机之间的交流。本文对本体的概念以及相关理论进行了介绍,重点分析本体在信息检索中的作用,给出基于语义扩展的信息检索模型。基于语义扩展的信息检索是建立在领域本体基础上的语义信息检索。传统的向量检索模型是在语法层面上依据字面的简单机械匹配,而基于语义扩展的信息检索则可以上升到语义层面上。基于语义扩展的信息检索分析检索文档和查询语句的语义信息,经过语义推理,深度发掘文字下面的语义信息和它们之间的关系,弥补传统向量空间检索在语义方面的不足。在文档结构方面,本文借鉴多层向量空间模型的思想。依据各部分在文档中重要程度差别,采用分层方法,将文档分为不同的文本段,以文本段为单位,进行文本段内的关键词权重计算。根据文本段重要程度不同,对相似度系数进行适当的调整,以便更好的反映文档的特征属性,实现对文档和检索语句之间关系的真实反映。将语义信息检索与多层向量空间信息检索的结合起来。针对传统向量空间检索模型中存在着文档语义理解的缺失和文档结构区分不明确的不足,本文提出一种基于多层向量空间的语义信息检索模型及其算法,很好的将基于领域本体的语义信息检索和基于多层向量空间的信息检索结合起来,并提出与之相关的一些理论和方法。此外,基于多层向量空间的语义信息检索模型采用改进后的tf - idf公式作为权重计算的公式,使得权重计算考虑的因素更为全面。在实际检索过程中,不再拘泥于文本段固定的划分格式,而根据文档不同部分的可行性,适当的选取适合该文本段的计算方法。最后通过实验说明新的模型和方法在检索结果上的可行性。