基于MapReduce的数据立方体分区优化算法研究

来源 :信息安全与技术 | 被引量 : 0次 | 上传用户:wzxgxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。
其他文献
文章在分析区域农业产业结构调整与土地利用变化的相互作用机理的基础上,以江西省上饶县为例,分析了研究区域土地利用结构的多样化和集中化趋势,并着重通过构建土地类型之间
GPS测量控制网的优化设计工作是GPS控制网质量的重要保证,本文在分析GPS测量控制网特点的基础上,对GPS测量控制网优化设计的质量指标进行了探讨。
<正> 在中国近代美学与文学批评史上,王国维是最早热心学习和介绍西方美学,并尝试用西方美学与文学理论来评论中国古代文学的学者之一。从1902年至1912年的十年之间,他先后写
本文运用CiteSpace和HistCite文献计量方法,以中文核心期刊和Web of Science核心合集中的城镇化研究文献为对象,通过对文章数量、研究主题词与团队的分析,总结国内外城镇化研
监测地理国情,是测绘地理信息行业工作的拓展和重要发展方向。本文以汶川地震核心灾区人文经济专题数据分析为切入点,以满足省政府民族事务部门实际需求为出发点,设计了相应
对投影变形问题进行了分析,结合实例,探讨了抵偿高程面任意带高斯投影对控制投影变形的实用性。
当前国内外基于位置服务开展得如火如荼。而位置服务平台终端品种单一、价格昂贵是制约其发展的瓶颈。本文正是以此为契机,针对多品牌、各操作系统的手机进行定位,监控软件的
本文从我国房地产业宏观调控存在的问题着手,对我国房地产业宏观调控政策进行分析,并给出完善我国房地产业宏观调控政策选择的建议。
自 8 0年代中期以来 ,女作家池莉的小说之所以引起人们的普遍关注 ,在于她使用“崭新的眼睛”撕裂了长期以来由众多的文学作品所虚构出的美好人生和理想生活的神话 ,仿真出了
重点研究了冷轧压下率对冷轧、再结晶织构的影响.结果表明:当终轧温度为750℃时,热轧带退火后以{111}再结晶织构为主.随着冷轧压下量的增加,γ织构减弱,α织构增强,{111}再结