论文部分内容阅读
随着计算机技术发展以及电子设备普及,人类社会已经进入数字时代,信息数据在人类生活中无处不在,人类社会已经处于信息爆炸时代。随着参与人员与设备增加,各种分布式应用系统数据正以前所未有速度在增长,这将使得分布式应用系统面临着大数据的挑战。在分布式环境下系统对操作处理性能以及系统扩展性上具有更高要求,在提高系统性能以及扩展性上不仅可以对处理技术进行优化,同样也可以通过对应用系统的数据管理平台进行优化。应用系统的数据管理平台中数据组织管理形式将直接影响应用系统的性能及扩展能力,因此研究分布式环境下大数据的组织管理具有重要的理论价值和实际价值。分布式环境下,数据具有规模大、增长速度快、数据类型多样等特征,这将对数据组织管理带来全新挑战。本文在分析分布式环境对大数据管理平台提出新要求以及新挑战下,在分析相关工作的基础上,主要针对数据组织管理的数据划分、数据块分配和重分配以及索引技术上进行了研究,主要研究内容和成果包括:1)针对分布式环境中大数据系统需要支持多维查询分析、快速加载数据以及保证系统扩展能力等问题,提出了一种基于混合范围一致性Hash数据划分策略(HRCH)。首先,根据历史操作选择常用的查询属性,使用降维技术将这些属性进行线性化(保证线性有序),并将该线性值作为数据表的Key;其次,使用一致性Hash将数据分配到多个节点集群中;最后,在每个节点集群中使用范围划分策略来对数据进行划分存储。通过测试基准程序——YCSB来验证HRCH的有效性,结果表明虽然HRCH在数据操作效率上略低于传统划分策略,但是HRCH具有更高的数据加载能力,同时HRCH还能够提高系统可扩展能力,最后HRCH还能够很好支持多维查询处理。2)针对分布式环境下大数据系统的数据处理模式变化以及系统负载均衡问题,提出了一种基于负载感知的数据块分配策略(LAFAS)。分布式环境下大数据系统的数据处理模式已经从“数据靠近计算”转变为“计算靠近数据”,则数据块位置将直接影响系统中计算执行位置,从而数据位置将影响系统节点负载。为了尽量平衡系统负载,LAFAS针对新加入系统的数据块进行分配。首先,通过信息熵理论来计算影响节点负载因素的权值,从而可以准确计算节点负载;其次,根据节点负载情况对候选存储新数据块的节点集合进行裁剪,再用传统策略将该新数据块分配到候选节点集合,其能保证新数据块不会被分配到高负载节点,从而来对系统负载进行调整。通过模拟实验来验证LAFAS有效性,结果表明在LAFAS下的系统比随机及轮询策略下的系统负载更为均衡,而且在LAFAS下操作处理具有更高的性能。3)针对分布式环境下盲目提高操作并行度并不一定能够提高操作的响应能力,反而会很大程度增加操作过程中网络通信代价问题上,提出了一种基于超图的数据块重分配策略(FASBH)来降低操作的通信代价。由于数据处理模式的变化,在保证操作并行度的前提下为了减少操作的网络通信代价,则需要将操作访问的数据块尽量存储到同一节点上,在这样的目标上提出了FASBH。首先,选择较为典型的历史操作,使用超图模型来对历史操作所访问的数据块的相关度进行衡量;其次,使用超图划分算法对数据块超图进行划分,该划分算法保证操作一定并行度的前提下尽量将相关度高的数据块划分到同一节点上,从而降低操作执行过程中的网络通信代价;最后,以最小的迁移代价对数据块进行迁移。通过实验来验证FASBH的有效性,结果表明FASBH在数据块相关性衡量以及系统处理性能上都比传统策略(基于图的策略)具有更高的效率。4)针对大数据的特定应用(微博系统)中对博文建立实时索引效率低的问题上,提出了一种基于主题的实时分布式索引技术(RDIBT)。RDIBT首先使用主题判断技术对新加入系统的博文的主题进行推断;其次,在该博文对应的主题索引上对该博文建立索引,每个主题索引都是多层索引结构,该结构能够保证最新加入系统的博文只在该索引结构的最低层索引上进行操作,之后再批量将低层索引更新到高层索引上,从而来保证索引更新效率;最后,将主题索引分布存储到系统上实现搜索的并行处理来提高搜索处理的效率。通过真实的Twitter数据集来验证RDIBT的有效性,结果表明RDIBT在索引创建速度以及搜索响应速度都比LSII索引技术具有更高的性能,另外RDIBT还能够保证索引系统的可扩展能力。综上所述,本文针对分布式环境下大数据对系统的性能及扩展能力上提出要求和挑战,研究了数据划分、数据块分配和重分配以及数据索引等数据组织管理的关键技术,这些研究对提高分布式环境下大数据应用系统的操作处理性能及可扩展能力都具有重要理论意义和应用价值。