论文部分内容阅读
查询处理是任何信息管理系统的重要特征和组成部分。语义Web领域的智能查询处理问题已经成为研究热点,其与已有的查询处理工作最大的不同点是:使得基本的RDF数据存储具有重要的实际应用价值。因此,设计一个高效的查询处理系统,且其性能不会随着数据规模的增大而退化,已经成为语义Web查询领域的一个亟待解决的问题。考虑到实时查询处理的一个潜在用途就是从异构数据源中发现新信息,因此它已经成为Linked Data领域日益流行的查询处理策略。Linked Data领域的研究者通过将实时查询处理与其它查询策略相结合,已经提出并实现了多种不同的查询技术。而本文的研究内容为:1)提出了一种查询处理模型,使用实时查询处理策略,利用Linked Data网络作为Linked Data应用的附加信息源;2)提出了一种算法(Seed Populator算法),可将相关数据源作为种子URI提供给查询处理系统。Seed Populator算法的重要贡献在于能够有效处理Umbrich所强调的非连通的、与查询相关的文档。由于已获取的查询结果中的引用链接具有不可见性,因此无法访问与查询相关的文档,这限制了查询执行引擎所反馈的查询结果的规模。而Seed Populator算法可有效解决该问题;3)进一步的,本文描述了一种可被执行系统直接用于查询Linked Data网络的通用算法,即Live Query Execution算法。在本文的建模和实验过程中,我们证明了采用该算法后,执行系统可以获取更多的相关数据资源,从而增大了命中潜在查询结果的可能性;4)最后,本文设计实现了一个Linked Data应用系统,即“研究信息发现”系统,该系统使用实时执行系统以便利用Linked Data网络作为附加的信息源。Linked Data网络的重要意义在于,它可以提供一个全局的分布式交互数据库,该数据库中的有效数据来源于生活中的各个方面。而在实际应用领域,通过高效的查询处理系统来发现和利用相关有效数据,是一个潜在的需求。本文着重解决了Linked Data应用如何利用从Linked Data网络中获取的如此巨大的信息。