基于二分图的RDF关键词扩展查询算法研究与实现

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ddd12322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多领域的RDF数据集在Web上的发布,针对RDF数据的检索和重用也变得越来越重要。然而,现有的RDF数据的查询研究还存在一些不足:基于图模型的RDF数据查询方法虽然能够保持数据的语义信息,但是RDF数据图的规模的不断增加会带来查询响应瓶颈问题;现有的关键词查询方法没有考虑词语歧义问题,查询结果可能因为关键词没有被匹配而不能满足用户的查询意图;面对海量的RDF数据的查询处理,传统查询方法都出现了查询性能瓶颈。针对以上问题,本文通过对大量文献资料的分析研究,提出采用RDF二分图进行关键词扩展,从而高效实现RDF数据的查询。论文主要工作如下:(1)提出RDF数据的二分图模型。该模型在传统RDF数据图模型的基础上将RDF三元组结构中的主语、谓词和宾语分别用顶点单独表示,增加对谓词上关系的查询,完整保留RDF数据的语义信息;通过定理证明RDF二分图的反对称邻接矩阵及其幂矩阵能够构造出包含查询关键词的查询结果子图;通过引入点割集的相关理论知识,证明分割后子二分图之间的共有顶点集合是点割集,理论上保证RDF二分图的分割效果。(2)提出基于二分图的RDF关键词扩展查询算法。该算法利用Word Net词典对查询关键词进行同义词扩展,并利用RDF二分图的反对称邻接矩阵的特性,对查询过程进行优化处理。实验表明,该算法与传统方法相比,能够消除词语歧义,提高查询准确率,降低查询响应时间。(3)提出基于二分图的RDF数据分割算法。为了并行化实现查询算法,提高海量数据的查询效率,本文通过分析图分割关键因素,制定基于二分图的RDF数据分割原则,理论上证明分割后子二分图之间的共有顶点集合是点割集;结合分割算法,给出了基于二分图的RDF关键词扩展查询算法的并行化实现。通过对比实验验证本文提出的基于二分图的RDF关键词扩展查询算法及分割算法的性能优于传统方法,并给出并行化前后查询算法的性能分析。
其他文献
信息系统的广泛使用及大量医疗数据的存储,使得数据的交换和整合越来越频繁,由于大量异构逻辑数据源的存在,数据挖掘和数据整合技术成为多应用系统整合的关键。本文对美国美中互
学位
问题解决是人类思维最常见的一种形式,是人类重要的高级智能活动之一。认知的信息加工理论认为,问题解决的过程,主要是对问题空间进行搜索的过程。然而,毫无目的盲目的搜索效率很
学位
伴随互联网的迅速发展,网络安全已成为人们普遍关注的课题,网络安全技术越来越受到重视。作为网络安全的第一道防线,防火墙技术已经成为网络安全体系中一个最重要的环节。IPv6协
学位
在社会快速发展,人们对新产品的服务和需求日益强烈的背景下,嵌入式技术需要不断的更新和发展。随着理论研究的进一步深入,建立嵌入式平台的Linux操作系统内核和根文件系统制
在传统的应用程序开发过程中,随着国家政府部门的法律法规的改变、企业的市场竞争策略以及内部管理方式的改变、不同客户的个性化需求的不同,使得信息系统的需求经常性的发生
云计算是随着大规模计算机、个人计算机、互联网的发展而产生的第四次IT产业革命,谷歌首先定义并发展了云计算。而云计算的开源模型Hadoop是一种基于Java的通过运行可分布式
公共对象请求代理体系结构CORBA是为了解决分布式异构环境下对象之间的互操作性问题而提出的基于中间件的分布式对象技术,其核心是一套标准的语言、接口和协议,以支持异构分
学位
信息技术的高速发展导致了海量数据的产生。如何在这些海量数据中发现有用的知识,是我们目前面临的最主要问题。数据挖掘技术的出现,为解决这一问题提供了有力的工具。在这些
随着互联网的快速发展和全球化趋势的进一步深化,文本数据呈现大规模的增长。同时,自动翻译系统的兴起使得文本数据很容易被翻译成其它语言,从而促进了多语种文本数据的产生,
随着网络技术的快速发展,服务器端大规模高密度并发访问带来的性能问题日趋严峻,服务器集群技术是解决这一问题的常用方法,服务器通过对用户请求的分配来改善系统的性能,达到负载
学位