论文部分内容阅读
随着互联网规模的不断扩大,网络上的信息资源呈几何级数增长。当前,互联网上的网页数已经超过了100亿,并且每天新增加数百万网页。人们所面临的问题已经不是信息匮乏,而是面对如此海量的信息,如何有效的从中获取有用的信息。信息检索技术的出现一定程度上缓解了人们获取信息的需求。传统的信息检索技术都是基于语法层面上字、词的匹配,主要采用倒排索引、目录等方法实现。此信息检索系统具有简单、快捷和易实现等优点,但也存在一些问题。用户在检索时,很难通过几个关键词来表达检索意图;并且,由于是采用关键词匹配,一词多义或一义多词现象使得检索结果常常不能满足用户的需求;此外,传统的信息检索系统难以表达概念之间的语义信息。本文首先归纳了传统信息检索技术存在的问题,阐述了基于本体的文本资源信息检索的特点和优势,并详述了基于本体的文本资源信息检索技术国内外研究现状。其次,提出了基于本体的文本资源信息检索模型,并对该模型的关键功能模块进行了详细的描述,同时还研究了该模型涉及的关键技术,如本体概念语义相似度计算,文档标题和摘要的提取,本体的创建等。接着介绍了要实现基于本体的信息检索模型所用到的一些开源工具,如Lucene、IKAnalyzer、Jena、Protégé等。最后,结合提出的检索模型,利用开源工具,设计开发了Java知识检索系统。该系统以Java中的概念作为素材,创建了Java知识本体。通过对该本体的推理,可以充分挖掘概念包含的隐含信息以及概念与概念之间的关联关系,并且结合本文提出的本体概念语义相似度计算方法,对用户的查询式进行了扩展,有效提高了检索效率。通过把该检索模型与传统信息检索系统进行对比,成功验证了该模型具有更高的查全率和查准率。