基于内存的列存储数据集动态压缩技术的研究与应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wangwenhu8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化产业的快速发展,越来越多的行业正面临着数据量巨大、数据种类复杂、数据处理速度要求更快、数据计算准确性要求更高等一系列问题,以单机为计算工具的计算模式已经远远无法胜任大数据计算的存储需求和性能需求,因此以Hadoop为代表的一系列大数据计算技术应运而生,其中最为核心的两个工具分别为MapReduce和HDFS,分别解决了计算性能与计算存储的问题。然而,随着摩尔定律的放缓,近几年磁盘的读写性能一直未能有突破性发展,这种需要频繁读写磁盘的大数据分析工具对于日渐庞大的数据量显得越来越力不从心。针对这类问题,University of California in B erkeley的AMPLab实验室设计了一整套以内存计算为核心的计算框架,其目的是将数据缓存在内存中以解决频繁读写的问题。然而,在大大提高了计算性能的同时,我们也不得不考虑内存成本相对昂贵的问题。另一方面,对于当前计算机体系的设计而言,整个计算系统的性能与拥有的内存资源数量并非正比关系,系统的控制总线的吞吐率还是会限制系统对内存资源的调度效率。因此,如何更高效地利用内存资源对于内存计算而言显得尤为重要。本论文提出了一种内存数据集动态压缩的压缩策略,旨在高效灵活地为内存计算解决内存资源的分配问题。通过充分测试不同压缩算法的压缩性能,以及详细地研究Spark内存计算的资源分配模型,该方案能够针对不同的数据计算类型,分析出适合的数据压缩算法,然后通过系统各方面的运行参数来判断是否需要对数据进行压缩并持久化,从而达到节省内存资源并充分优化系统整体性能的目的。此外,对于内存计算数据集多数采用列式存储的特点,应用数据压缩显得尤为方便。针对该论文提出的内存数据集动态压缩策略的设想,本文设计并实现了基于Spark计算框架的一套数据动态压缩模块,可根据计算数据的类型选择适合的压缩算法,根据系统的计算性能判断是否需要进行数据的压缩和持久化。与此同时,为了将理论研究运用到实际案例中,我们设计并实现了一套完整的日志大数据实时处理框架,其中除了已集成我们研究的数据动态压缩策略外,我们还设计了一套统一的类SQL的数据查询接口,可以供用户同时对实时和非实时的数据进行查询。此外,我们的系统还包括了一套数据收集的消息队列系统、用户输入SQL查询的接口以及HTTP消息转发的后端系统。在论文的最后,通过对系统中各个模块进行不同数据类型的压力测试,验证了系统的性能。具体来说,对文本统计等数据密集型应用而言,动态压缩算法的性能提升可达3.6倍;而对于图像识别、机器学习等迭代计算较多的应用,动态压缩算法的性能提升可达6倍之多。本文提出的内存数据集动态压缩策略的创新点体现在三方面:首先,它针对不同的数据场景自动选择适合的压缩算法,大数据应用开发人员无需对系统进行反复调试与参数设置,即可在充分发挥硬件性能的基础上最大化计算效率;其次,对于列式存储数据集而言,实现了列级别的压缩,并提供了一套完整的SQL查询接口,以实现数据的实时与非实时查询;最后,结合现在主流的大数据技术,我们将本论文的核心压缩策略运用到日志大数据的实时分析中,有效地将理论与实际相结合,并验证了系统的可行性与性能。
其他文献
背景:黑色素瘤(melanoma)是极具危险性的疾病,占皮肤肿瘤死亡病例的极大部分。而恶性黑素瘤细胞对化学疗法的抵抗,预示着恶性黑色素瘤患者的不良预后效果。造成黑色素瘤化学
有机无机杂化化合物由于结构灵活多变、制膜容易、成本低、可降解等优点,越来越引起研究者的重视。该类化合物中的有机阳离子组分通常会对外界的刺激产生响应,从而引起结构相
目的:1.根据实验红鲫标准化的要求,进一步筛选和建立实验红鲫C1HD系微卫星DNA分子标记,并以此微卫星标记做种群遗传纯合度分析。2.根据实验红鲫标准化的要求,建立实验红鲫水
氧化铅纳米材料与块体材料相比具有独特的电学、光学等性能,因此其具有广泛的应用前景。氧化铅具有两种多晶型形式:α-Pb O在低温下可以稳定存在,晶格结构为红色四方相;β-Pb
随着对材料科学的深入研究,单相材料已经不能满足人们的需求,复杂化、功能化、绿色化的新型材料已成为研究热点。多功能“壳”材料包覆单相“核”材料形成兼具各自优异性能的
一、背景与目的肝细胞癌(Hepatocellular carcinoma,HCC)是临床诊断中常见的高发性,高致死率的恶性肿瘤,在恶性肿瘤死亡率中位居第三。全球每年约有100万人被诊断出患有肝细
目的:血清铁蛋白(serum ferritin,SF)是一种24亚基蛋白质,且分子量较大,主要分布于肝、脾、骨髓等组织中,由肝细胞、巨噬细胞和库普弗(Kupffer)细胞分泌,经经典分泌途径进入
二十一世纪以来,我国经济政治水平、医疗保健事业高速发展。能否使每位公民享受到国家发展成果,能否实现公共服务均等化的普惠要求。是全面建成小康社会、全面建设社会主义现
目的研究苦参碱(Matrine)对人多发性骨髓瘤(MM)细胞株RPMI 8226、U266增殖、凋亡的影响,探讨其可能的作用机制,明确作用靶点,为临床应用提供理论依据。方法以人多发性骨髓瘤
21世纪初期,伴随着互联网、物联网、电子商务等技术的发展,我们进入了信息爆炸的时代。信息时代的到来为我们交流信息带来了巨大的便利,但是信息爆炸时代过多虚假、有害的信