【摘 要】
:
数据信息的指数增长,加剧了数据保存成本过高、空间耗能过大等问题。据阿里云相关数据统计,由于大量冗余数据存在、存储结构不合理,海量数据中心存储空间的有效利用率不足40%
论文部分内容阅读
数据信息的指数增长,加剧了数据保存成本过高、空间耗能过大等问题。据阿里云相关数据统计,由于大量冗余数据存在、存储结构不合理,海量数据中心存储空间的有效利用率不足40%。针对大数据存储方案研究时遇到的数据存储空间利用率低和存储结构不合理问题,现有的解决方案一般是通过消除冗余数据、优化存储结构来提高存储空间利用率。在消除冗余数据方面一般是通过hash函数判断数据重复项,但由于哈希冲突问题,导致不同的块有相同的Hash值;在存储结构方面优化现多采用BDSCAN算法,但是该算法一直有只能依靠经验来设定阈值,导致聚类结果质量无法保证、处理海量数据时效率低下等问题。针对上述两个问题,本文做了以下研究:一、针对上述数据冗余消除问题,本文采用基于“CubeHash+关键词+特征向量”的标签化去重模型利用去重模型对相同、相似数据进行判定并且删除存储系统中的冗余数据,达到了优化存储空间利用率的目的;二、针对上述出来海量数据时效率低下问题,本文采用基于“遗传算法+MapReduce编程框架”的GA-DBSCANMR结构优化存储模型。GA-DBSCANMR模型对样本数据集进行聚类训练,通过将去重模型生成的索引信息表聚类,实现索引表近似精准的聚集分块化,减少了寻址对比消耗的时间提升了存储效率,实现了对存储结构的优化。通过实验验证,标签化去重模型有效提高了存储空间利用率;GA-DBSCANMR模型降低了重删耗时,且随着数据量的增长模型的优化效果将会变得更加明显。
其他文献
作为经济发展最活跃、开放程度最高、创新能力最强的地区之一,长三角地区在国家现代化建设大局和世界竞争格局中处于重要的战略地位。随着长三角区域一体化发展上升为国家重大战略,长三角地区如何高质量发展也引起了人们的广泛关注。民营经济的发展是长三角地区得以“风生水起”的重要力量。其民营经济高质量发展水平的高低,也将成为决定长三角地区高质量发展程度高低的重要因素。因此,长三角地区民营经济发展,尤其是高质量发展
历经30多年的改革开放和经济社会的持续发展,中国开始步入新的历史阶段,社会经济也处于新的变革阶段,中国开始进入全面发展的新时代。中国的社会保障事业也面临新的变革,这种
半导体光催化技术是一种清洁、无污染的能源转化技术,它不仅能够将可再生的太阳能转化为化学能,同时也能够氧化分解有机污染物,有望为人类面临的能源短缺和环境污染的问题提
自1978年改革开放以来,我国社会的经济水平发展越来越快,我国人民群众的生活质量也随着经济发展有了质的飞跃,无论是物质方面还是精神方面的需求都大幅度提升,这在一定程度上促进了度假、休闲旅游行业的发展。全域旅游这一新兴概念在当下旅游业发展过程中,虽被提出不久但已经深入人心,为中国旅游业新时代的发展提出了新方向、新战略。2016年我国262个市县作为首批国家全域旅游示范单位开始创建,标志着我国旅游业向
FPGA是一种可编程的IC芯片,能够用于具有复杂算法的运算器、数字滤波器等逻辑运算单元和信号处理单元。本课题主要是运用FPGA并行操作的特点来设计多操作数浮点算术运算控制器
为确保公路隧道建设项目施工的顺利进行,需要对隧道变形进行监测和分析,从而对隧道结构体系稳定性做出准确、客观的判断,必要时采取应对措施可避免危险发生。当施工中的隧道发生坍塌事故时,施工人员的准确位置及生命体征状况是制定救援方案的重要依据。国内外现有监测系统多针对独立项目或独立设备监测,系统应用范围小,数据处理不够完善,缺乏对隧道施工人员安全监测。基于此,本文以公路隧道施工期间的隧道变形监测和人员安全
随着计算机网络空间和全球无线定位系统的不断发展,基于位置的移动应用服务逐步吸引了人们的眼球,受到人们的重视,走进人们的生活,涵盖了生活的方方面面。在用户获取基于位置
惯性平台为测量载体速度和加速度提供了一个参考坐标系,使惯性元件不受载体运动的影响。由于惯性元件对温度极为敏感,平台内部的温度变化会造成惯性元件的性能波动,进而影响
编组站作为铁路货物运输路网上重要的车流集散地和交通枢纽,承担着大部分货运列车的解体、编组作业任务。随着我国铁路每年货运总发送量稳定增长,编组站的作业量越来越大,安全生产风险也随之增加。编组站的安全运营直接影响着区域铁路系统的有效运行,其中,路网性编组站运营是否安全更是重中之重,它关系到相当范围路网的生产效率、运输畅通以及经济效益的确保。以往对于铁路编组站的事故特征分析与安全评价研究较少,在新形势下
选择性催化还原技术是目前工业上治理固定源NOx应用最广泛的脱硝技术,催化剂作为该技术的核心。在燃用高碱煤时,V2O5-WO3/TiO2催化剂布置于高尘区域易受烟气中钠盐作用而失活;低温催化剂最常见的是Mn/ZSM-5催化剂,提高烟气中NO2比例会发生快速SCR反应,加快催化还原反应进程。然而,钠盐和NO2的存在对SO3生成有明显的影响,大多数学者集中于研究碱金属中毒催化剂的脱硝性能等,忽略了SO3