论文部分内容阅读
随着移动互联网和物联网的快速发展,全球数据量出现了爆炸式的增长,传统的数据存储和计算模型难以适应这种海量的、复杂的、高速的和低价值密度的大规模数据,为了解决海量数据的存储和计算问题,大数据相关技术应运而生。大数据的核心技术主要包括:数据获取、数据存储、数据分析和数据可视化等。本论文围绕大数据关键技术,选择存储技术、负载均衡技术和检索技术三个切入点来展开深入研究,主要研究内容与创新点如下: 1、大数据存储关键技术 论文从可用性和可靠性两个角度对大数据存储技术进行了研究。在可用性研究方面,论文通过对单机存储系统可用性的研究,分析了单机存储系统可用性定义中存在的问题,提出了影响分布式存储系统可用性的四个主要因素,给出了分布式存储系统可用性度量公式,并分析了常见的提高分布式存储系统可用性的方法。在可靠性研究方面,论文通过对已有的分布式文件系统存储可靠性策略的研究,给出了三种分布式存储系统可靠性策略的数学模型,并针对三种可靠性策略的缺陷,提出了分组并联混合策略和串联混合策略,而且进一步给出相关的数学模型和数据块管理策略。经过实验验证,分组并联混合策略和串联混合策略在存储空间利用率、可靠性、数据修复带宽和文件读写效率等方面都有良好的表现,特别是分组并联混合策略,在解决超大文件可靠性方面,具有很好的实用价值。 2、大数据负载均衡关键技术 论文从存储负载均衡、计算负载均衡和数据内容负载均衡三个角度对大数据的高效存储进行了研究。在存储负载均衡方面,给出了存储熵的定义,并从数据读取效率的角度,提出基于存储熵的大数据存储负载均衡算法,实验表明,该算法比基于存储资源利用率的算法在读写效率方面具有较大的优势;最后结合数据读取效率和存储资源利用率两个因素,给出了集群扩展时,新添加存储节点的存储容量匹配公式。在计算负载均衡方面,给出了计算熵的定义,并提出了基于计算熵的大数据计算负载均衡算法,通过系统整体负载判定、单节点负载判定和负载调整将计算任务均衡地分配到集群节点。经过实验验证,该算法具有良好的均衡计算负载的能力。在数据内容负载均衡方面,通过对数据直方图的研究,提出了直方图并行构建算法,并通过构建数据块直方图、存储节点直方图和文件直方图的形式来描述数据的分布状态,并在此基础上提出了基于直方图的数据均衡算法,判断系统中是否存在数据倾斜,并利用贪心策略,通过数据块交换的方式,在不改变每个存储节点存储量的条件下,使数据的分布趋于均衡。经过实验验证,均衡后每个存储节点上的数据内容与期望值比较接近,达到了内容均衡的效果。 3、大数据检索关键技术 论文通过对检索技术的研究,提出了基于有限维增量哈希链表的索引构建算法,该算法通过哈希函数在有限维中确定检索关键词,并以此构建增量哈希链表。经过实验验证,该算法比ElasticSearch自带的算法相比,在索引文件大小、创建索引的时间开销和检索的时间开销等方面都具有一定的优势。在基于有限维增量哈希链表的索引构建算法的基础上,提出了基于统计量的多维日志数据检索算法和基于相关系数的病例数据检索算法。基于统计量的多维日志数据检索算法通过统计每一个单一维度查询结果集的检索量,对数据维度按由小到大进行排序,并以此顺序依次对多个维度进行检索,可以有效减少检索量;基于相关系数的病例检索算法通过对病情描述和通过哈希链表查找到的病例之间计算相关系数,获得与该病情描述最吻合的病例。经过实验验证,两种算法分别在检索数据量、检索命中率和检索效率等方面具有各自的优势。