论文部分内容阅读
语义网是人工智能和Web技术相结合的产物,语义网的内容表达是基于XML (eXtensible Markup Langauge)语言和资源描述框架(RDF)来实现的。XML允许使用者以层次结构自定义标记来标注数据,并将其作为标注放置在网页中,以便计算机程序处理网页内容。XML的内容包括XML声明、定义语言语法的DTD (Document Type Declaration)、描述标记的详细说明及文档本身等。RDF是Web上用于数据交换的标准模型,继承了Web的连接结构,使用统一资源标识符(URI)描述网络上的节点以及节点间的联系,即三元组模型。使用这个简单的模型,允许结构化和半结构化的数据在不同的应用程序间共享。目前广泛用来检索RDF信息的语言是SPARQL,但目前的SPARQL只支持RDF数据基本模式的匹配查询,不支持对RDF数据节点间或者单节点周围可能存在的联系路径的查询,不能充分挖掘RDF数据节点间关联的特性,因此很难直接发挥RDF数据模型区别于其它数据模型的优势,而实际应用中不仅需要使用SPARQL对RDF数据进行基本模式匹配的查询,很多时候挖掘RDF数据节点间的联系也十分重要。在认真分析语义网相关标准后,本研究提出基于Jena框架扩展SPARQL标准,使其具备对RDF数据节点间关系路径检索的能力。为了达到上述目标,首先对W3C中SPARQL的标准进行语法部分的扩展,在原有语法的基础上引入新的关键字,使得扩展后的SPARQL在语法上支持对RDF节点间关系路径检索的表达;然后对Jena框架中ARQ引擎实现部分进行重新设计以支持新加入的标准。在重新设计ARQ查询引擎过程中提出使用有向图模型替代原来的迭代器模型以提高查询效率,另外针对语义节点间关系路径数据结构的特征,提出了比较有效的排序算法对查询结果集进行排序,最终保证排序后的检索结果集能够满足用户的真实需求。SPARQL标准经扩展后,RDF数据模型的可得到更全面的挖掘与运用。