论文部分内容阅读
随着越来越多领域的RDF数据集在Web上的发布,针对RDF数据的检索和重用也变得越来越重要。然而,现有的RDF数据的查询研究还存在一些不足:基于图模型的RDF数据查询方法虽然能够保持数据的语义信息,但是RDF数据图的规模的不断增加会带来查询响应瓶颈问题;现有的关键词查询方法没有考虑词语歧义问题,查询结果可能因为关键词没有被匹配而不能满足用户的查询意图;面对海量的RDF数据的查询处理,传统查询方法都出现了查询性能瓶颈。针对以上问题,本文通过对大量文献资料的分析研究,提出采用RDF二分图进行关键词扩展,从而高效实现RDF数据的查询。论文主要工作如下:(1)提出RDF数据的二分图模型。该模型在传统RDF数据图模型的基础上将RDF三元组结构中的主语、谓词和宾语分别用顶点单独表示,增加对谓词上关系的查询,完整保留RDF数据的语义信息;通过定理证明RDF二分图的反对称邻接矩阵及其幂矩阵能够构造出包含查询关键词的查询结果子图;通过引入点割集的相关理论知识,证明分割后子二分图之间的共有顶点集合是点割集,理论上保证RDF二分图的分割效果。(2)提出基于二分图的RDF关键词扩展查询算法。该算法利用Word Net词典对查询关键词进行同义词扩展,并利用RDF二分图的反对称邻接矩阵的特性,对查询过程进行优化处理。实验表明,该算法与传统方法相比,能够消除词语歧义,提高查询准确率,降低查询响应时间。(3)提出基于二分图的RDF数据分割算法。为了并行化实现查询算法,提高海量数据的查询效率,本文通过分析图分割关键因素,制定基于二分图的RDF数据分割原则,理论上证明分割后子二分图之间的共有顶点集合是点割集;结合分割算法,给出了基于二分图的RDF关键词扩展查询算法的并行化实现。通过对比实验验证本文提出的基于二分图的RDF关键词扩展查询算法及分割算法的性能优于传统方法,并给出并行化前后查询算法的性能分析。