论文部分内容阅读
随着信息技术的飞速发展,互联网的信息量以指数方式增长,Web已经成为了信息的海量数据库。互联网为用户提供了良好的信息源,但是,如何快速、准确的从这个信息库中获取需要的信息却成为了一个棘手的问题。信息检索技术,尤其是Web信息搜索引擎的产生,给用户获取信息带来了方便。但是当前主流的信息检索技术主要还是以基于关键字进行检索,注重搜索算法的研究,相对忽略了对语义的支持。互联网信息格式异构性、语义多重性和信息关系不统一,给信息管理和信息获取造成了极大的不便。虽然当前的搜索引擎已经在技术上做了很大的改进,使用了自然语言处理技术、数据挖掘等技术来提高检索的效率,但是从整体来看查全率仍然不高。语义网模型的提出使得信息检索有了新的发展方向。为了提高检索的查全率,本文在研究分析了基于本体的相关信息检索方法的基础上构建了一个基于本体的信息检索框架,提出的基于本体的局部语料分析查询扩展技术。基于本体的局部语料分析查询扩展技术是在基于局部语料分析的查询扩展方法的基础上结合本体技术的改进方法。本体对领域信息的知识化表示使得该技术能够实现对语义的支持,优化了原方法进行局部文档分析的过程,提高了文档分析的效率。在本体技术和局部语料分析方法的双重保证下,本文的方法提高了扩展结果的准确性和相关性。为了更好的提高基于本体的局部语料分析查询扩展技术的效率,本文对本体模型进行了相应的优化,对本体中概念间、实体间的横向联系进行了处理,以消除本体模型中的网络状结构,使本体保持清晰的树状层次结构,这样不仅能够降低本体模型的复杂度,而且使本体结构清晰、概念间关系明确,使得概念相似度的计算也更加简便。在处理文档的过程中本文使用了分层向量空间模型,对分层向量空间模型进行分析后指出了模型原计算公式的错误,进行针对性修改后提出了本文的计算公式。本文最后设计了实验来验证本文提出的检索框架以及相关方法的有效性。本文构建了一个田径项目实验本体,并从网络选取了60个相关新闻作为实验文档。经过文档处理,用本文的基于本体的局部语料分析查询扩展方法对用户检索请求进行处理后,在本文构建的检索框架中进行检索。检索结果显示,本文提出的基于本体的局部语料分析的查询扩展技术对用户查询关键字的扩展结果覆盖面广且相关性高,最终检索得到的文档相关性也高。实验结果显示本文的方法达到了预期的效果,提高了检索的查全率并且又不失查准率。