基于本体的Deep Web语义搜索引擎

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:whg_2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅速发展和普及,WWW成为一个巨大的信息资源库,对这个信息资源库的搜索出现了“信息过载”和“信息迷航”的问题。由于WWW的自治性、开放性、异构性、动态性和指数增长等特点,目录式搜索引擎、全文搜索引擎都暴露出了根本的缺点。基于关键字查询,只检索静态页面,只能进行“导航式”的检索,导致了索引容量指数增长、查全率和查准率不断降低等问题。提高搜索引擎的查全率和查准率,满足用户“知识粒度”检索的要求,同时能够进行语义层面的搜索,成为用户对新一代搜索引擎提出的要求。为了从根本上解决这些问题,新一代的搜索引擎要求必须对WWW进行新的知识表示。万维网的创始人Tim Berners-lee为此提出了新一代万维网的架构—Semantic Web,其上的信息具有良好的定义,使得人与机器、机器间能够更好的实现信息的共享与协作。Semantic Web能够从根本上解决传统搜索引擎所暴露出来的问题。由于WWW的自治性特点,Semantic Web的接受需要一个相当长的时间,并且由于Semantic Web的研究大都停留在理论研究阶段,所以新一代搜索引擎难以实现。本文在新一代搜索引擎和WWW之间找到了一个结合点,将Semantic Web的架构应用到Deep Web的搜索,提出了基于本体的Deep Web语义搜索引擎。基于本体的Deep Web语义搜索引擎可以解决传统搜索引擎只能搜索静态页面,无法进行语义搜索,无法为用户提供“知识粒度”检索的缺点。本文的创新点如下:1、本文基于Semantic Web架构对Deep Web进行语义搜索,解决了传统搜索引擎只能搜索静态页面,无法对Deep Web进行搜索,只能基于关键字搜索,无法进行语义搜索,只对静态页面的内容进行索引,而不能进行元数据索引的缺点,提高了搜索引擎的查全率和查准率,避免了搜索引擎索引容量的瓶颈问题。2、本文通过对Deep Web查询接口进行元数据提取,将查询接口看作后台数据库的元模式,利用元数据描述语言RDF对查询接口进行RDF描述,然后结合领域本体对查询接口的RDF元数据进行RDF检索,从而实现查询接口的语义搜索,提高了查询接口检索的准确率,由于查询接口具有高度的领域相关性,所以提高了搜索引擎的查准率。3、本文提出了基于领域本体的Deep Web语义搜索引擎的框架,由Deep Web爬虫、Deep Web分类器、Deep Web表单提取、自然语言查询接口、语义推理、表单检索器、Web检索器、统一接口查询和结果集成模块组成。在本文中重点分析了Deep Web的发现、分类和查询接口RDF的语义检索,整个RDF检索系统以Jena平台为开发平台,以汽车领域本体和查询接口RDF模型为例进行了验证。4、基于知网的词汇语义关系判断算法以知网做为本体,采用基于结构的模式匹配算法进行词汇逻辑关系的判断;Deep Web特征选择算法采用词汇频度作为类内、类间可分性判据以Tabu搜索策略进行特征选择;Deep Web查询接口RDF提取算法根据查询接口Html代码的特征进行查询接口Html代码和查询接口RDF模型的映射;Deep Web查询接口RDF查询算法以用户输入的关键词序列为检索条件,进行关键词序列的分类操作,概念推理算子操作,得到概念关键词对序列和实例关键词对序列,根据概念关键词对序列采用RDQL语言对RDF进行检索,然后根据检索结果和实例关键词对序列以Http协议格式对Web进行数据检索。本文对上述算法进行了实例验证。本文从理论上对基于Semantic Web架构的Deep Web搜索引擎进行了研究,提出了搜索引擎的大致框架和各关键部分的算法思想,完善了基于Semantic Web架构的Deep Web搜索引擎的检索流程,具有理论可行性,同时结合领域对检索流程和各关键部分的算法进行了实例验证,整个系统可以在Jena平台上开发实现。
其他文献
随着罐形容器的普遍使用,其安全性能和缺陷检测方法越来越受到社会各界的关注。研制开发一种高性能快速、可手持操作、便于进行数据处理和实时检测的罐形容器缺陷检测系统,具
视觉感知一直是科学研究中吸引人们已久的问题之一。如何设计、制造能够像人类视觉系统一样高速而又有效的方式处理视觉信号的系统,一直以来是人类追求的梦想。虽然随着科学
WindowsPE文件是Windows操作系统下可执行文件的主要文件格式,针对PE文件类型的病毒的隐蔽性强、破坏巨大、变种多的状况,本论文深入探讨了PE文件型病毒的防治技术。计算机病毒
书法与水墨画是中国最具代表性的传统文化,其特有的水墨表现方式和抽象写意性与西方的绘画有很大不同。随着近代计算机技术的不断发展,水墨艺术的数字实现是计算机科学与技术与
网络安全态势感知能够大幅提升大规模网络的整体安全性,是目前网络安全领域的研究热点。本文主要围绕网络安全态势感知中的数据融合技术进行研究,通过构建科学合理的网络安全
为了解决网络服务质量(Quality of Service,QoS)问题,本文深入的研究了区分服务网络的结构和特性,并将带宽代理引入区分服务网络(DiffServ),制定动态的资源管理方案,从而提高数据
分布式拒绝服务(DDoS,Distributed Denial of Service)攻击是当前互联网存在的重要安全威胁。随着Internet规模的不断扩大和网络带宽的不断提升,网络DDoS攻击的流量也随之增
随着转录调控领域相关数据则增加,国际上已出现有关调控区,调控单元和转录因子和结合位点的数据库,比较著名的有Transfac,Trrd,Jaspar等。然而大量的有关于转录调控信息主要
随着网络的迅速发展,网络安全越来越被人们所关注。作为防火墙有力的补充,入侵检测系统(IDS)已经成为网络安全领域的研究热点。 入侵检测本质上可以看作是一个分类问题,即通
虚拟现实技术被广泛的应用在虚拟军事训练、三维游戏、系统样机设计、虚拟制造、虚拟外科手术、城市规划及虚拟远程教学等领域。在虚拟现实中,阴影是一个非常重要的部分,它能