论文部分内容阅读
语义万维网通过赋予信息明确的结构和语义,使得计算机在显示这些信息的同时,能够理解、处理和整理它们。近年来,随着LOD(Linking Open Data,链接开放数据)和DBpedia等项目的全面展开,语义Web数据源的数量剧增,大量以RDF(Resource Description Framework,资源描述框架)为数据模型的图结构语义数据被发布。互联网数据由原来的“页面”文本变成了包含大量实体和实体之间信息丰富的“资源”集合。这种背景之下,新型数据的出现势必导致新一轮数据处理技术的发展,针对语义数据特别是RDF数据的研究已成为前沿和热点问题。现阶段,RDF数据的剧增及应用范围的扩展大大促进相关存储、查询、索引等数据库技术的发展。已有索引、检索模型、算法和优化技术能够实现部分特定查询的高效检索,返回top-1结果或返回top-1精确匹配的结果集。但是,由于RDF查询需求多样化、供查询模式不足等现状的存在,导致它们面临自身不能解决的top-k查询问题。因此,为更好覆盖用户的多样化需求,top-k查询的研究日趋迫切。同时,RDF图内文本信息丰富、语义表述性强、关联过多、数据量大等特征,给RDF图数据的高效top-k查询带来了更大的挑战。本文从RDF图top-k查询与优化这一核心问题出发,以top-k概率查询的优化为切入点,分析并找出已有算法的优势及不足,提出新的基数估计法。同时,由RDF图top-k概率查询延伸出与之并列但有待解决的top-k最短路径问题。综合考虑RDF图自身的特征、相应本体所反映出的信息及其内部关联,设计出支撑top-k最短路查询的索引并尝试引入基数估计方法解决查询效率的优化问题。但是,由于路径查询与选择查询之间的差异,导致本文采用优化效果更好剪枝办法。有效的剪枝办法提高了top-k最短路径查询的效率,但该框架伴随着精确查询的共同问题,即经常性地出现结果记录数过少甚至为空的情况。为此,本文提出了语义距离的概念,实现基于语义度量的RDF图top-k近似查询。具体来说,本文的创新性主要表现在:1.RDF图top-k查询的基数估计算法:已有基数估计方法假设RDF图是确定图,同时,以相互独立作为前提条件来描述子查询之间的关系。这些方法在假设和前提条件下,完成对任意查询结果集的基数估计。因假设和前提条件均与实际情况不符,容易导致估计结果的误差过大。本文针对此问题,提出一种基于贝叶斯网络模型的基数估计方法,并分别在德国马克斯普朗克计算机科学研究所发布的数据集YAGO、通用参考书目数据集DBLP以及美国利哈伊大学发布的模拟数据发生器生成的数据集LUBM上进行测试并与同类方法进行对比。实验结果表明,本文方法有效完成查询结果集的基数估计,估计结果的准确性比已有方法高,性能在可接受范围之内。2.基于语义压缩索引的RDF图top-k最短路径查询:本文利用RDF图和本体所提供的语义和结构信息,提出并构造层次分明的组件索引,在索引的基础上设计和实现RDF图的top-k最短路径查询,同时,提出查询优化策略并予以具体的分析证明。在YAGO数据集上进行测试并评价基于语义的压缩索引和top-k最短路径查询的效果。实验结果表明,该方法可高效构造索引并有效返回top-k最短路径,查询响应时间相比同类方案更短,索引所占用空间更少。另外,针对海量动态数据库产生的需求,在大数据上完成对自身框架的测试并探讨该框架在动态数据库中的可用性。3.基于语义度量的RDF图top-k近似查询:已有方法主要基于距离来度量查询语句与实例图之间的近似值,但基于距离的度量方法忽略了图的语义性,难以应用于语义图的近似查询。本文针对该问题,提出语义距离的概念及基于语义距离的近似值度量方法,并以此为基础实现RDF图的近似查询,同时,为提高查询效率,本文结合已有方法,实现了语义结构剪枝策略。在LUBM数据集上进行模拟测试并评价相应指标。实验表明,本文方法可高效执行RDF近似查询,有效返回top-k结果集;其次,本文所提出的语义结构剪枝策略有效避免了查询过程中可能出现的Np-难问题。