Web数据管理中的分布式图数据存储和查询

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liongliong549
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网(World Wide Web,WEB或WWW)规模和应用的飞速发展,Web数据爆炸式增长,Web数据已经形成了世界上最庞大的数据库。此外,Web数据的相关数据如搜索记录、各种Web服务使用记录数据等都在迅速增长。与传统的数据相比,Web数据具有非结构化,增长速度快以及数据类型多样的特点,这使得Web数据的处理方式和现有的数据处理方式存在着较大的区别。在现实的各个领域中,Web数据处理技术有着广泛的需求和应用,因此对于Web数据的研究已经成为当今计算机科学的一个重点。为此,我们介绍了CWI[1],一种新的海量数据查询和存储工具。在CWI的实际应用中,需要对大量的Web数据进行存储和索引,并且在此基础上实现关键字和结构信息的查询。TLGM[2]和TLGM-QL[3]作为CWI的一部分,满足了上述要求。本文主要着重于在分布式的环境下实现TLGM数据模型的存储,并且实现了TLGM-QL的四个基本算子。在设计和实现过程中,我们发现真实环境数据的不均衡性会导致存储和查询算法的退化,从而降低效率。针对这些问题,本文提出了一系列均衡措施,保证各节点的运算和存储负载差异保持在一个合理的范围之内。在此基础上,本文提出了新的子图重构的算法,以支持对于图结构的查询,并通过均衡措施保证算法的效率。本文通过对虚拟数据和真实环境数据的实验验证了系统的有效性。本文的贡献和创新之处总结如下:1.本文分析了Web数据的特性,并引入了TLGM模型来说明图数据在存储、索引和查询方面和传统数据的区别。本文首先在集中式的环境下分析了使用关系数据库存储图数据的可能性,收集整理了若干图数据,并且设计了一系列的查询,通过实验来验证该条件下图数据存储和查询的效率,由此说明集中式存储的不足和局限性。2.分析了TLGM的特性,从而阐述在分布式环境下实现该数据模型存储和查询的实现方法。在此基础上,我们概括了TLGM图数据模型可以满足的各类查询条件,并在此基础上提出了四个基本的算子,并举例说明这些算子具有良好的扩展性。同时我们给出在分布式环境下这些算子的实现方法以及具体算法。3.提出了新的图重构的算法,介绍了如何使用该算法来实现对于图结构的查询。本文通过MapReduce[4]框架来实现该算法,该算法具有良好的可扩展性,并允许我们缓存重构的结果从而提高效率。在实现过程中,我们发现不同数据节点负载差异较大,从而通过对原算法进行若干修改从而达到负载均衡。同时我们生成并收集了若干图数据,并且通过一系列的实验来验证该方法的有效性。综上所述,我们整理并分析了Web数据存储、索引和查询中的问题,并且通过TLGM模型将此转化为图数据存储、索引和查询的问题。并根据实验结果我们确定了以MapReduce的分布式框架作为基础,在此之上设计并实现了图数据的四个基本算子和图重构算法,通过实验证明了我们的研究成果具有良好的效率和扩展性。
其他文献
脱机手写体汉字识别由于其字符集庞大,字形变化多等特点成为模式识别领域一个极具挑战性的课题。它将在信函分拣、银行支票识别、统计报表处理以及手写文稿自动输入等诸多方面
访问控制是保护信息资源的一种重要机制,通过对用户访问行为的限定从而达到保护敏感信息的目的。因此,实施合适的访问控制是构建安全信息系统的基本要求。访问控制通常依据一
共享存储多核多级Cache结构已成为高性能计算领域通用的处理器架构。虽然多级Cache结构能够有效缓解“存储墙”,但在科学计算程序中,访存指令占有较大比重,访存效率仍然很低,
同一场景的两幅或多幅图像的匹配是计算机视觉中的一个重要领域。在目前的匹配方法中匹配的准确率和匹配的性能是一对矛盾,所以选择对于图像噪声,3D视角变换、遮挡以及亮度变化
虚拟机技术在企业服务器整合、多执行环境、计算机安全、系统调试、灾难恢复等领域具有很高应用价值,是当前热点技术之一。在众多虚拟机技术中,XEN具有开源、高效的特点,近年来
随着计算机应用技术和电子商务的快速发展,企业可获取的信息数量和类型有了极大的增长。由于XML的可扩展性、结构性以及平台无关性的优点,XML已经成为Intemet数据交换事实上
粗糙集理论是一种处理含糊和不确定性问题的新型数学工具,已广泛应用于机器学习、决策分析、知识发现、专家系统、决策支持系统、模式识别、模糊控制等领域。目前粗糙集理论
网络蠕虫是一种能够自我复制、自动传播的恶意移动代码,它不依赖于人的参与,具有一定的智能性,目前已成为Internet中最主要的安全威胁之一。近年来,P2P系统流行,其用户越来越
随着计算机技术、互联网技术的快速发展,数据呈现爆炸性的增长趋势,对海量数据的存储需求也越来越大。为了满足需求,许多新型分布式存储系统开始出现,并被应用于实际的生产中
随着工业的发展和城市化的加快,空气污染愈加严重,在高楼林立人口密集的城市环境中更为突出。而突发的空气污染事故扩散快,危害大,具有不可以预测性,为了能够在事故发生后,快