论文部分内容阅读
在信息技术领域内,时间作为描述数据变化过程的基本维度,是诸多应用程序的重要组成部分。Web是现代信息共享与交互的基本平台,由于用户可以在任意时刻对数据进行编辑与发布,因此网络数据通常具有较高的动态性和时效性。长久以来,时态信息的表示和存储管理都是各项科学研究的重点,其中XML(Extensible Markup Language)作为主要的数据传输和存储语言,相关的时态扩展已经获得较广泛的研究。然而随着人工智能时代的来临,用户对网络的要求已经不仅仅局限于数据共享,人们对网络提供智能数据分析与处理的要求愈加强烈。但是目前使用的网络标准Web 2.0缺乏数据语义的描述,数据的内涵信息必须人工解读,提供智能化服务更是举步维艰。语义Web的出现与发展为此带来了解决方案,其采用的资源描述框架RDF(Resource Description Framework)及模式RDF Schema(统称为RDF(S))能够强有力地表示数据间的语义,从而加强机器对数据的理解,促进人与机器的协同合作。与此同时,语义Web领域内的时态数据处理研究也从未间断过。二十世纪初学者就提出了RDF(S)的时态扩展方案,并给出了具体的蕴含规则及语义推理方法。为促进Web信息语义化进程,本文关注于基于时态XML的时态RDF(S)自动构建,并在观察到时态RDF(S)数据呈指数增长的情况下,研究了基于分布式数据库HBase的时态RDF(S)存储,具体研究内容如下:(1)分析时间维度,提出时间域的表达方式与计算方法。依据选取的时间维度,提出时态RDF(S)、时态XML与XML约束规范XML Schema模型的形式化定义,并且给出时态XML与时态XML Schema的应用方式。(2)在时态模型定义的基础上,分别提出基于时态XML Schema和时态XML文档提取时态RDF Schema和时态RDF实例的映射规则及映射算法,并且设计实现相应的构建原型系统,验证映射方法的有效性与可行性。(3)分析HBase的数据模型与物理结构,提出HBase内置时间模型中存在的问题。并根据时态RDF(S)的数据特性,提出基于HBase的时态RDF(S)存储模型。该模型不仅能够有效存储具有时态特征的RDF数据,并且能够快速响应所有TriplePattern以及层次信息的查询。此外,本文针对该存储模型提出了相应的时态RDF(S)查询方法,并利用LUBM(Lehigh University Benchmark)数据集进行查询实验与结果分析。