基于个性化本体的语义搜索引擎技术的研究与设计

来源 :河北工业大学 | 被引量 : 1次 | 上传用户:mydearsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的普及和飞速发展,网上信息以指数的形式增长。这些海量信息在给人们带来丰富资源的同时,也给人们对如何有效地获取和使用这些信息带来了巨大的挑战。传统搜索引擎在一定程度上缓解了这一矛盾,然而,由于其无法理解这些信息的语义,导致它的检索质量和效果远远无法令人满意,其查全率和查准率还有待提高。语义搜索引擎将检索策略从传统的关键词层面上升到语义层面,结合智能推理技术,改善搜索的性能。语义搜索技术实现了信息的语义表示,知识推理,语义相关度计算,可以有效地解决当前检索技术所面临的困境。本文首先介绍了搜索引擎的工作原理,分类和评价标准。接着详细研究了搜索引擎的现状,并分析了存在的问题。进而引出了语义搜索引擎,介绍了语义搜索引擎的相关术语,研究了其关键技术、工作原理及其发展和应用现状。针对传统搜索引擎存在的不能理解语义的缺陷,本文提出了基于个性化本体的语义搜索引擎,并结合传统搜索引擎的技术和优势设计了一个可以增加语义理解功能的搜索引擎Sendu。Sendu引擎采用Heritrix作为爬虫在网络上抓取信息资源,以Lucene框架构建传统的搜索引擎作为基础,为了增加语义理解能力,使用本体编辑工具protégé来创建领域本体。Sendu引擎通过使用本体将用户查询关键词转换成可识别领域语义的术语。Sendu使用RDF API——jena来进行推理,得到与用户搜索关键词有语义关系的词汇,比如同义词、上位词等。这些扩展的术语将会提高搜索引擎的查全率,比如当搜索“计算机”这个词的时候,jena根据本体知识库,将会推导出它的同义词“电脑”,这样就将最终的查询扩展了查询“计算机”和“电脑”相关的网页。本体将以一种灵活的方式对术语进行组织。Sendu引擎还提出了增加三个语义搜索过滤器来过滤掉一些用户不想获得的网页,在原型系统实现时,可以让用户采取定制的方式来实现,比如,如果用户不考虑网上的一些PDF资源,那么语义搜索过滤器将会把这种格式的文档过滤,解决了当前搜索引擎忽略一些格式的文档资源。最后,本文实现了Sendu引擎原型系统,获得了较好的查全率和查准率。通过对这个系统性能的评估,对系统的改善提出了进一步意见,并对语义搜索引擎的应用前景进行了展望。
其他文献
随着世界环境问题的日益严峻,绿色计算成为信息技术领域的重要组成部分。另一方面,全球消费者对尺寸更小、功能特色更丰富,同时电池寿命更长的便携式装置的迫切需求,让功耗问
实时的人数统计是当前计算机视觉领域的热点研究问题,且具有重要的实际应用价值。目前的行人检测算法,大部分基于单目摄像头所拍摄的彩色图像,或是跟踪人的运动轨迹或是建立
问答系统能够以自然语言的方式进行提问,并能以自然语言的形式进行回答,是一种新型的智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索
高分辨率数码相机的普及和网络传输带宽的增加促进了数字化图像的大量产生和堆积。如何有效地管理与检索如此大规模的图像数据库已成为当前信息检索领域的重要课题。传统的基
目前,许多BPM (Business Process Management)软件企业使用基于构件复用的软件开发方法,缩短了开发周期、节约了开发成本、提高了企业的市场竞争力。然而,随着用户需求的不断
随着计算机网络技术的飞速发展,数据库技术在存储、管理大量重要数据方面的作用越来越明显。与此同时,网络攻击的目标和方法也在不断变化,其中,针对Web应用系统的占很大一部
随着现代微电子技术、无线通信技术、计算机网络技术等长足的进步以及因特网的持续发展,传感器信息获取技术也因此得以迅猛发展。发展方向从单一化模式转向集成化、微型化、
随着RFID应用的广泛推进,对RFID的应用适应性研究在整个世界范围内都显得非常迫切。RFID系统一般包括三大部分:电子标签、读写器和后台数据管理系统。近年来由于采用了不同行
计算机支持的协同工作(CSCW)是目前计算机领域研究中的一个热点问题。群体感知理论和访问控制机制是协同工作中必不可少的组成部分。群体感知理论和实现技术主要解决外部环境
人类社会发展至今,各类灾害性事件的发生趋向于频繁化、复杂化、特殊化、严重化,而当这些灾害发生时,往往需要多警种、多部门、多层次、跨地域的统一接警,统一指挥,联合行动,