基于Linked Data的大规模语义数据分布式检索研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:xuelin_1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着链接数据运动的开展,越来越多的RDF数据在Web上发布,并且其数量增长迅速。如何能够为这些大规模的RDF数据提供高效检索服务成为了目前的研究重点。提出了一种大规模RDF数据分布式索引方案,用于高效、准确地检索RDF数据。在此基础上,将语义因子引入到传统IR排序模型中,设计并实现了TreeRank语义排序模型,向用户提供带有语义的RDF数据关键字检索服务。利用Cassandra分布式键值存储库的底层数据结构创建倒排索引,具有高度的可扩展性;针对RDF数据的模型特点在传统索引中添加了RDF资源的位置信息,有效地支持精确的关键字查询的快速执行;使用MapReduce框架一次性实现了RDF数据装载、编码以及索引的创建,具有高度的整合性;提出引入辅助关键字的查询模式,使系统能够智能地识别用户的查询意图;使用ORDPATHs对本体中的类进行编码,在编码层面直接体现类与类之间的继承关系;为RDF数据的TBox创建分布式倒排索引,能够根据用户的查询意图计算类的相关度;给出TreeRank语义排序算法的定义及公式,实现语义排序。综上,该检索方案能够在保证高效率创建索引的同时,利用语义排序算法对查询结果进行排序,从而为用户提供快速、精确的大规模RDF数据语义检索服务,对语义Web领域的研究具有一定的指导作用。
其他文献
在项目反应理论(IRT)中,参数估计对于建设题库﹑考察被试﹑考察考试质量起着重要的作用。随着IRT的不断发展,产生了多种不同的参数估计方法。但随着模型的越来越复杂,已有的参数
近年来机器视觉技术已经十分广泛的应用在印刷品缺陷检测领域,但是随着人们对印刷品质量的要求提高,传统的印刷品缺陷检测已经很难满足印刷品工业的需要,要想提高印刷品缺陷
无线传感器网络技术作为新兴技术之一,近年来得到了迅速发展。无线传感器网络主要由布置在监测区域中大量的廉价微型传感器节点组成,实时监测传感器网络中的环境信息,在当今军事
流媒体相关服务已经成为互联网中的主流应用,采用P2P技术的流媒体应用在提高流媒体系统的可扩展性、并发性和健壮性的同时,却面临着大量挤占骨干网络,资源安全和内容版权难以
面对海外设备厂商的市场垄断和技术封锁,自主研发半导体设备既是国内半导体设备市场的迫切需求,也是国家意志的体现。本文从控制程序设计、运动性能优化、控制功能升级以及通
随着分布式交互仿真技术的不断发展,HLA(HighLevelArchitecture)成为继DIS(Distributed Interactive Simulation)之后出现的新一代分布式交互仿真标准。为了满足大规模复杂系
近年来,互联网的整体规模越来越大,作为搜索引擎采集模块的爬虫的工作压力与日俱增,即使最专业的搜索引擎服务提供商,如谷歌、百度,也无法保证所有页面的时效性。而就单个页
在过去的四十年里,信息检索领域出现了很多经典的模型,诸如布尔模型、向量空间模型以及概率模型。随着Pnoet和Corft首次提出基于统计语言模型的检索模型,近十年来该模型得到了快
随着互联网技术的迅猛发展,网络信息过载问题越来越明显,如何快速地从海量信息中获取所需的部分,成为一个亟待解决的问题。RSS由于其自身的简洁性和通用性,改变了信息的获取
开放文档格式是基于XML纯文本的一种安全持久的文档格式,包含了字处理文档、电子表格、演示文稿、绘图等多种文档类型,具有跨平台的优势。由于开放文档格式规范非常繁杂,已经超