面向海量时序数据存储的分布式冗余策略研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:haili20102010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展和各种监控设备和传感器的普及,工业界开始面临海量的数据所带来的挑战,已经进入了大数据时代。在这些海量的数据当中,有一类数据叫做时间序列数据。时间序列数据应用于生活的方方面面,具有极高的价值。如何高效的对时间序列数据进行存储和分析具有十分重要的意义。  分布式系统Hadoop常常被用来处理海量的数据。但时间序列数据不同于传统的海量数据,时间序列数据之间存在较强的关联性。当利用Hadoop来分析海量的时间序列数据时,由于Hadoop默认的数据放置策略并没有考虑数据之间的关联性,这导致任务运行的过程中会产生大量的数据移动,从而影响系统的性能。为了提升分析任务执行的并行度和可用性,有必要对时间序列数据在Hadoop中的副本放置策略进行研究。具体来说,本文的主要工作内容如下:  1、从理论上分析了关联数据任务的可用性。本文为多区域系统内分析任务的可用性建立了一个数学模型,通过对模型进行推导和求解,得出了使得分析任务可用性最小和最大的数据放置策略,同时给出了一个概率区间。  2、研究了任务的可用性和系统其他性能之间的关系,提出了一个分布式系统数据放置算法SPOverlap。将时间序列数据存储于系统中时,除了要考虑任务的可用性之外,还需要考虑其他的系统性能,例如,网络负载、读写时延等。在理论研究的基础上,本文综合考虑了系统各方面的性能,提出了算法SPOverlap,并将SPOverlap与HDFS默认的数据放置策略进行比较。实验结果显示SPOverlap可以减少任务失效数量近6倍以上。  3、探索了如何利用数据副本来提升任务执行的并行度。文中分析了输入数据块和任务之间的关系,提出了一个可以有效的利用数据副本来提升任务执行并行度,并减少集群中数据移动的算法BRPS。本文将BRPS与HDFS默认的数据放置算法比较,实验结果显示BRPS可以减少集群内部数据移动近4倍以上。
其他文献
弹条是轨道扣件的关键部件,是用棒状弹簧钢加热弯曲成型的空间曲梁杆件,结构复杂,设计要求高,设计工作量大,产品需求量大,其性能质量关系到列车行车安全.随着铁路的提速,其结
数据挖掘研究如何从大量的数据中智能地、自动地抽取出有价值的知识和信息,是当前人工智能中非常活跃的研究领域。近年来,随着我国信息化建设的快速发展,知识的自动获取已成为制
二维灰度图像中的三维物体识别问题一直是计算机视觉领域的一个重要的研究内容,也是个很复杂的问题。目前,国内外的研究大多使用图形学的方法,与人工智能相结合的研究仍然很少。
工作流是一个运行的业务流程,工作流管理与工作流的控制及协同有关。工作流管理是一个被业界广泛应用并迅速发展的技术,它的主要特点是使处理过程自动化,使人和各种应用工具协同
目前Lorenz-Mie理论是用于模拟彩虹最准确的方法。然而Lorenz-Mie理论由于其本身的局限性,只能处理球状雨滴。自然界中产生彩虹的雨滴由于空气阻力的存在,都是非标准球体。针对
作业管理的概念非常重要,目的在于强化操作系统的批处理功能,提供对作业的提交、调度、执行及控制等机制,从而能够更加有效地利用系统资源、平衡网络负载,提高系统的整体性能。作
随着移动互联网时代的到来,大量的计算任务从PC端迁移到移动端,移动应用开始发挥越来越重要的作用。在移动应用市场中Android应用已占据主导地位,随着Android应用数量的增加,如何
面对快速多变的市场环境和企业用户需求的多样化趋势,电子商务系统应充分利用以网络为核心的各种信息技术来构造它的软件系统;而是否能够快速地构建一个性能良好的软件系统,是一
TSP问题(traveling salesman problem)是一个组合优化方面的问题。它的定义很简单,求解难度却相当的大,吸引了许多包括数学、运筹学、物理、生物和人工智能等各个领域的研究者,
随着嵌入式系统在许多领域的广泛应用,用户对嵌入式系统的要求已经不仅仅停留在保证系统的实时性、紧凑性和高性能,对于可信性的要求也日益增加。系统的可信性包含安全性、可靠