基于本体的文本资源信息检索服务研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:gaoliqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的不断扩大,网络上的信息资源呈几何级数增长。当前,互联网上的网页数已经超过了100亿,并且每天新增加数百万网页。人们所面临的问题已经不是信息匮乏,而是面对如此海量的信息,如何有效的从中获取有用的信息。信息检索技术的出现一定程度上缓解了人们获取信息的需求。传统的信息检索技术都是基于语法层面上字、词的匹配,主要采用倒排索引、目录等方法实现。此信息检索系统具有简单、快捷和易实现等优点,但也存在一些问题。用户在检索时,很难通过几个关键词来表达检索意图;并且,由于是采用关键词匹配,一词多义或一义多词现象使得检索结果常常不能满足用户的需求;此外,传统的信息检索系统难以表达概念之间的语义信息。本文首先归纳了传统信息检索技术存在的问题,阐述了基于本体的文本资源信息检索的特点和优势,并详述了基于本体的文本资源信息检索技术国内外研究现状。其次,提出了基于本体的文本资源信息检索模型,并对该模型的关键功能模块进行了详细的描述,同时还研究了该模型涉及的关键技术,如本体概念语义相似度计算,文档标题和摘要的提取,本体的创建等。接着介绍了要实现基于本体的信息检索模型所用到的一些开源工具,如Lucene、IKAnalyzer、Jena、Protégé等。最后,结合提出的检索模型,利用开源工具,设计开发了Java知识检索系统。该系统以Java中的概念作为素材,创建了Java知识本体。通过对该本体的推理,可以充分挖掘概念包含的隐含信息以及概念与概念之间的关联关系,并且结合本文提出的本体概念语义相似度计算方法,对用户的查询式进行了扩展,有效提高了检索效率。通过把该检索模型与传统信息检索系统进行对比,成功验证了该模型具有更高的查全率和查准率。
其他文献
学位
日益泛滥的垃圾邮件给普通百姓的生活带来了诸多不便,也给某特定应用领域带来了麻烦。因此设计一种高效的和广泛应用的邮件过滤系统是一件很有意义的事情。本文在分析了传统邮
学位
学位
云计算作为一种新型的资源使用模式以及交付模式,越来越受到各行各业的重视。众多大型企业也热衷于云计算技术的研究,云计算已经成为当今热门技术名词。云计算的出现,解决了
学位
视频压缩编码领域大多使用复杂的编码器和简单的解码器,编码器需要处理压缩数据的时空冗余,这使得编码过程的计算复杂度通常比解码器端高五到十倍,导致这些方案不适用于高速视频
雷达系统仿真是在计算机上模拟、再现真实雷达系统在不同场景中的工作机理和过程,从而求解、验证和评估真实雷达系统特性、效能等方面的一套方法。通常,在系统仿真设计及开发过
学位
随着互联网信息数据的爆炸性增长和用户对搜索信息的要求不断提高,现有的基于关键词匹配的搜索技术已经不能满足高质量的搜索任务。语义网本体技术作为一种新颖、起点较高的知