论文部分内容阅读
互联网信息的飞快增长极大地改变了人们获得信息的方式,面对大量的互联网信息,如何才能够迅速、方便地获得有效信息,逐渐成为人们关注的问题。搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是应用在因特网上的一种软件系统,它以特定的策略在因特网上收集和挖掘信息,然后对信息进行剖析、提取、组织等处理后形成供检索用的检索库。检索模型是搜索引擎的数学基础,它的工作是根据使用者的需求找出相关信息,在这之前需要将信息按照某种特定的方式进行组织。本体是对共享的概念模型的明确的形式化的规范的说明。它其实是一种特殊的术语集合,具备结构化特征,且更为适用于在计算机系统中使用。领域本体对某个特定领域或客观世界的一部分模型化。在各种信息检索模型中,最常用的是向量空间模型。但是,向量空间模型具有固有的缺点,所以有很多人根据需要对它进行了改进。改进的检索模型虽然取得了一定的效果,但效果仍不明显。在计算查询和文档的相关度时虽然考虑了领域本体或者词义网词典,但是没有将二者结合起来。此外,现有的检索模型也没有考虑查询词项位置特征这一重要因素,查询经过这些检索模型处理后得到的词项便失去了顺序先后关系和相邻关系。本文的工作和创新主要表现在以下几个方面:(1)收集了软件领域中的各种概念以及概念之间的关系,并用专业术语表达出来,作为软件本体的基本概念集,并按照语义词典的结构来把它们组织成语义关系网络。然后用Protégé手工构造软件领域本体,作为求概念相似度的一个参考。(2)通过将两个概念在词义网中关于根据信息理论得到的语义相似度融合到软件领域本体得到的相似度中得到了一种新的相似度算法。(3)将查询词项的位置关系作为求相关度时考虑的一个因素,提出了词序相关度和词语相邻相关度这两个概念,并对其进行形式化,然后对其进行初步的实现。(4)在本文构造的软件领域本体以及提出的概念的基础上构建了一个信息检索系统,然后对其进行了实现。实验证明本文提出的检索模型在查准率上有了较大的提高,同时本文提出的领域本体概念相似度计算方法求得的相似度也较为接近经验值。