大数据若干关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gdtk88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和物联网的快速发展,全球数据量出现了爆炸式的增长,传统的数据存储和计算模型难以适应这种海量的、复杂的、高速的和低价值密度的大规模数据,为了解决海量数据的存储和计算问题,大数据相关技术应运而生。大数据的核心技术主要包括:数据获取、数据存储、数据分析和数据可视化等。本论文围绕大数据关键技术,选择存储技术、负载均衡技术和检索技术三个切入点来展开深入研究,主要研究内容与创新点如下:  1、大数据存储关键技术  论文从可用性和可靠性两个角度对大数据存储技术进行了研究。在可用性研究方面,论文通过对单机存储系统可用性的研究,分析了单机存储系统可用性定义中存在的问题,提出了影响分布式存储系统可用性的四个主要因素,给出了分布式存储系统可用性度量公式,并分析了常见的提高分布式存储系统可用性的方法。在可靠性研究方面,论文通过对已有的分布式文件系统存储可靠性策略的研究,给出了三种分布式存储系统可靠性策略的数学模型,并针对三种可靠性策略的缺陷,提出了分组并联混合策略和串联混合策略,而且进一步给出相关的数学模型和数据块管理策略。经过实验验证,分组并联混合策略和串联混合策略在存储空间利用率、可靠性、数据修复带宽和文件读写效率等方面都有良好的表现,特别是分组并联混合策略,在解决超大文件可靠性方面,具有很好的实用价值。  2、大数据负载均衡关键技术  论文从存储负载均衡、计算负载均衡和数据内容负载均衡三个角度对大数据的高效存储进行了研究。在存储负载均衡方面,给出了存储熵的定义,并从数据读取效率的角度,提出基于存储熵的大数据存储负载均衡算法,实验表明,该算法比基于存储资源利用率的算法在读写效率方面具有较大的优势;最后结合数据读取效率和存储资源利用率两个因素,给出了集群扩展时,新添加存储节点的存储容量匹配公式。在计算负载均衡方面,给出了计算熵的定义,并提出了基于计算熵的大数据计算负载均衡算法,通过系统整体负载判定、单节点负载判定和负载调整将计算任务均衡地分配到集群节点。经过实验验证,该算法具有良好的均衡计算负载的能力。在数据内容负载均衡方面,通过对数据直方图的研究,提出了直方图并行构建算法,并通过构建数据块直方图、存储节点直方图和文件直方图的形式来描述数据的分布状态,并在此基础上提出了基于直方图的数据均衡算法,判断系统中是否存在数据倾斜,并利用贪心策略,通过数据块交换的方式,在不改变每个存储节点存储量的条件下,使数据的分布趋于均衡。经过实验验证,均衡后每个存储节点上的数据内容与期望值比较接近,达到了内容均衡的效果。  3、大数据检索关键技术  论文通过对检索技术的研究,提出了基于有限维增量哈希链表的索引构建算法,该算法通过哈希函数在有限维中确定检索关键词,并以此构建增量哈希链表。经过实验验证,该算法比ElasticSearch自带的算法相比,在索引文件大小、创建索引的时间开销和检索的时间开销等方面都具有一定的优势。在基于有限维增量哈希链表的索引构建算法的基础上,提出了基于统计量的多维日志数据检索算法和基于相关系数的病例数据检索算法。基于统计量的多维日志数据检索算法通过统计每一个单一维度查询结果集的检索量,对数据维度按由小到大进行排序,并以此顺序依次对多个维度进行检索,可以有效减少检索量;基于相关系数的病例检索算法通过对病情描述和通过哈希链表查找到的病例之间计算相关系数,获得与该病情描述最吻合的病例。经过实验验证,两种算法分别在检索数据量、检索命中率和检索效率等方面具有各自的优势。
其他文献
贝叶斯技术和贝叶斯网络是人工智能中不确定问题处理的一种工具。贝叶斯技术和Agent技术的融合形成一个具有广阔前景的新兴研究领域。本文对贝叶斯理论和贝叶斯模型进行介绍
本文系统地介绍了SCADA系统和神经网络的基本概念,详细解释了BP算法的基本原理、数学表达和算法步骤,并简单介绍了城市燃气输配SCADA系统的设计原则、体系结构、功能结构和通讯
随着“无纸化”时代的加速到来,电子阅读方式越来越受到人们的青睐。与此同时,各种电子书以及电子书阅读设备相继出现,它们的不断发展实现了阅读的轻便化及丰富化,但在其功能性、
该文的主要目的是研究电信运营支撑系统中的构件以及运用构件技术实现运营支撑系统软件的方法.论文分为两部分:运营支撑系统中构件理论的研究和实践开发中构件技术的运用,具
互联网承载了大量的信息资源和网络业务,网络规模不断扩大,网络组成也日益复杂,越来越有必要对网络行为进行深入的研究和分析。互联网流量包含了丰富的信息,通过对互联网流量的有
随着科学技术的不断发展,人们对产品的质量要求不断提高,同时,随着人们生活水平的提高,各式各样的卡片(如:银行卡、购物卡、会员卡等)的需求量也随着增加。然而,由于车间环境、机器
随着互联网络稳定性的增加,IP电话技术的不断成熟,以及IP智能网服务的增加,IP电话正在被越来越多的人所喜爱,其网络规模越来越大.在国内IP电话网中,主要采用H.323协议体系.迎
网络管理系统是通信网络的重要组成部分,是保证通信网正常、经济、可靠、安全运行的重要支撑手段.网络管理系统应用软件是网管系统中直接向人们体现网管系统功能的部分,随着
逻辑模拟是电子设计自动化(Electronic Design Automation-EDA)的重要组成部分,通过软件模拟来验证设计是否在功能和性能上达到预期的要求.随着集成电路复杂性的日益提高,传
"PCS网管通信适配系统"是中兴通讯成都研究所自主开发的小灵通PCS集中网管系统中的一个子系统.随着电信业的快速发展,我国电信网的网络规模越来越大,网络结构越来越复杂.在这