MR-DC:基于MapReduce的轻量级数据压缩策略

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:fengxun1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据平台Hadoop为追求通用性,牺牲了对结构化大数据的处理性能。为此,提出了一种Hadoop平台上的针对结构化数据的压缩存储策略。首先,针对多种不同的数据类型,结合轻量级压缩算法的特点,设计了多种数据类型的压缩数据页;然后,设计了基于HDFS的页式行列混合存储结构;最后,设计并实现了基于MapReduce的MR-DC数据压缩策略,将数据压缩存储到设计的存储结构中。在大规模数据仓库基准数据集上的实验结果验证了提出的策略能够显著减少结构化数据的存储量,从而为提高后续的数据分析处理性能打下基础。
其他文献
提出了一种内外定标结合的辐射特性测量方法,克服了外定标时使用的面源黑体温度范围不足的缺点,使用面源低温黑体对全系统低温段进行外标定,而后使用腔型高温黑体对部分光学系统
目的探讨小潮气量通气治疗新生儿低氧性呼吸衰竭的疗效。方法40例低氧性呼吸衰竭的新生儿(小潮气量组)应用小潮气量通气治疗,20例低氧性呼吸衰竭的新生儿(常规潮气量组)应用常规潮
目的了解北京市未生育妇女发生重复非意愿妊娠情况及1年内重复非意愿人工流产的影响因素。方法采用随机整群抽样方法,抽取2005年1月-2010年9月接受过人工终止妊娠手术,2010年1
摘 要: 本系统主要解决大学生课上学习不透彻,课后自学时可以在网站上询问老师及同学,学生可以通过系统上传下载资源和提出回答问题。该系统主要采用JSP与MySQL开发工具。本文对课后管理学习系统的背景、相关技术、主要的功能模塊、数据库及界面设计等几个方面进行了详细的论述分析。  关键词: 学习管理;课后交流;JSP;MySQL  中图分类号:TP311  文献标志码:A  文章编号:2095-216
目的探讨影响夫精宫腔内人工授精妊娠率的临床因素。方法回顾分析在深圳市人民医院生殖中心行夫精宫腔内人工授精(IUI)的793个周期的临床资料。结果周期临床妊娠率为15.8%。不孕
本文提出了一种通过基于智能视频监控的商场超市客流行为智能分析,对监控区域的顾客数量、顾客滞留时间、运动轨迹等进行实时的自动统计,从而实现基于视频分析的商场超市智能经营决策支撑系统的创新应用,从而辅助商场管理者进行精细化管理和运营。其核心技术包括了运动目标检测、人体目标识别和运动人体跟踪等开放环境下的视频分析算法。
人工流产(简称人流)后不规则阴道流血在临床上很常见,多由于人流不全所致。超声检查多能明确诊断,但一些病史较复杂、超声影像不典型者,超声可能误诊。 临床资料 2008年3月-2013
【目的】评价亚硒酸钠不同施用方法对水稻硒富集及转化的影响,为利用外源硒生产优质富硒稻谷提供参考依据。【方法】对盆栽优质常规稻基施或在其不同生育期叶面喷施亚硒酸钠,
旅游市场上的乱象屡禁不止,不仅破坏游客的出游体验,更影响旅游业的健康发展。本文从旅游市场管理主体、经营主体和旅游者三方面分析旅游市场秩序失范的成因,具体包括:旅游法
目的:研究术前心理干预对子宫肌瘤手术患者焦虑心理及性功能的影响。方法选取174例子宫肌瘤患者,随机分为干预组(n=87)和对照组(n=87)。干预组于术前接受心理干预,对照组不接受,比较两