RDF语义数据的top-k查询与优化方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:shuguang_888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义万维网通过赋予信息明确的结构和语义,使得计算机在显示这些信息的同时,能够理解、处理和整理它们。近年来,随着LOD(Linking Open Data,链接开放数据)和DBpedia等项目的全面展开,语义Web数据源的数量剧增,大量以RDF(Resource Description Framework,资源描述框架)为数据模型的图结构语义数据被发布。互联网数据由原来的“页面”文本变成了包含大量实体和实体之间信息丰富的“资源”集合。这种背景之下,新型数据的出现势必导致新一轮数据处理技术的发展,针对语义数据特别是RDF数据的研究已成为前沿和热点问题。现阶段,RDF数据的剧增及应用范围的扩展大大促进相关存储、查询、索引等数据库技术的发展。已有索引、检索模型、算法和优化技术能够实现部分特定查询的高效检索,返回top-1结果或返回top-1精确匹配的结果集。但是,由于RDF查询需求多样化、供查询模式不足等现状的存在,导致它们面临自身不能解决的top-k查询问题。因此,为更好覆盖用户的多样化需求,top-k查询的研究日趋迫切。同时,RDF图内文本信息丰富、语义表述性强、关联过多、数据量大等特征,给RDF图数据的高效top-k查询带来了更大的挑战。本文从RDF图top-k查询与优化这一核心问题出发,以top-k概率查询的优化为切入点,分析并找出已有算法的优势及不足,提出新的基数估计法。同时,由RDF图top-k概率查询延伸出与之并列但有待解决的top-k最短路径问题。综合考虑RDF图自身的特征、相应本体所反映出的信息及其内部关联,设计出支撑top-k最短路查询的索引并尝试引入基数估计方法解决查询效率的优化问题。但是,由于路径查询与选择查询之间的差异,导致本文采用优化效果更好剪枝办法。有效的剪枝办法提高了top-k最短路径查询的效率,但该框架伴随着精确查询的共同问题,即经常性地出现结果记录数过少甚至为空的情况。为此,本文提出了语义距离的概念,实现基于语义度量的RDF图top-k近似查询。具体来说,本文的创新性主要表现在:1.RDF图top-k查询的基数估计算法:已有基数估计方法假设RDF图是确定图,同时,以相互独立作为前提条件来描述子查询之间的关系。这些方法在假设和前提条件下,完成对任意查询结果集的基数估计。因假设和前提条件均与实际情况不符,容易导致估计结果的误差过大。本文针对此问题,提出一种基于贝叶斯网络模型的基数估计方法,并分别在德国马克斯普朗克计算机科学研究所发布的数据集YAGO、通用参考书目数据集DBLP以及美国利哈伊大学发布的模拟数据发生器生成的数据集LUBM上进行测试并与同类方法进行对比。实验结果表明,本文方法有效完成查询结果集的基数估计,估计结果的准确性比已有方法高,性能在可接受范围之内。2.基于语义压缩索引的RDF图top-k最短路径查询:本文利用RDF图和本体所提供的语义和结构信息,提出并构造层次分明的组件索引,在索引的基础上设计和实现RDF图的top-k最短路径查询,同时,提出查询优化策略并予以具体的分析证明。在YAGO数据集上进行测试并评价基于语义的压缩索引和top-k最短路径查询的效果。实验结果表明,该方法可高效构造索引并有效返回top-k最短路径,查询响应时间相比同类方案更短,索引所占用空间更少。另外,针对海量动态数据库产生的需求,在大数据上完成对自身框架的测试并探讨该框架在动态数据库中的可用性。3.基于语义度量的RDF图top-k近似查询:已有方法主要基于距离来度量查询语句与实例图之间的近似值,但基于距离的度量方法忽略了图的语义性,难以应用于语义图的近似查询。本文针对该问题,提出语义距离的概念及基于语义距离的近似值度量方法,并以此为基础实现RDF图的近似查询,同时,为提高查询效率,本文结合已有方法,实现了语义结构剪枝策略。在LUBM数据集上进行模拟测试并评价相应指标。实验表明,本文方法可高效执行RDF近似查询,有效返回top-k结果集;其次,本文所提出的语义结构剪枝策略有效避免了查询过程中可能出现的Np-难问题。
其他文献
随着艾滋病病毒感染者以及艾滋病病人犯罪率的逐年攀升,艾滋病患服刑者服刑期间的权益保障机制缺位凸显,刑满释放后回归社会后的权益保障机制缺失,造成其较难复归社会,这成了
遭遇来自异空间的怪客周末,启明大学附中的学生都回家了,唯独高二级的张皓和刘美圻仍留在学校的电脑室里。刘美圻觉得张皓有点怪,他不像以前,一进来就匆匆忙忙跑到电脑前,摆出一副
太赫兹波(Terahertz,THz)频率介于0.1THz到10THz之间。THz光谱检测技术作为一门新兴的交叉科学,它衔接了经典电磁波理论和微观量子理论。作为红外光谱检测技术的有益补充,THz
就电网调度管理方面讲述了加强调度自动化管理,加强继电保护的运行管理,加强运行方式的管理方面的问题。
本文分别按照《中国药典》2005年版一部和2010年版一部关于甘草浸膏中甘草酸含量的两种高效液相色谱法对我公司的六个批号的甘草浸膏样品中的甘草酸含量进行了测定,结果表明两
一、情境教学法的含义情境教学法是指在教学过程中,教师根据教学目标,以情感为主体,有意识地运用某种特定的场景再现教材内容,并通过直观形象的教学情境,让学生对所学的新知
隐匿性肾炎是属于本虚标实的病证,脾肾两虚是其本,为隐匿性肾炎的内在因素;风湿热毒邪是促其发病的外在因素,内外合邪为本病的病因所在。宋立群教授对此病的认识有着独特的见
目的:探讨和分析输卵管绝育术后复通和再孕的疗效。方法:采用传统开腹显微吻合术,对42例输卵管结扎术后患者进行复通术。结果:随访3年,复通42例(93.33%),复孕38例(84.44%)。结论:输卵
X射线多谱CT成像相对于传统单能假设的CT成像,其能谱信息更丰富,可依据能谱与衰减系数的多谱对应性,实现检测对象组分的有效区分,满足新型材料、矿石深加工以及现代医学中组
运用大体积进样-逆电渗流堆积-毛细管区带电泳分离测定了厚朴酚、绿原酸和咖啡酸。采用未涂层熔融石英毛细管(50 cm×50μm i.d.,有效柱长36 cm)分离;紫外检测波长为220 nm,