【摘 要】
:
随着对实时数据高性能分析需求的不断提高,实时OLAP系统获得了广泛关注,基于Spark平台的内存计算能力,有助于实现实时OLAP系统的实时数据分析.星型联接是OLAP系统的基础
【机 构】
:
华北电力大学控制与计算机工程学院/国网冀北电力有限公司技能培训中心
论文部分内容阅读
随着对实时数据高性能分析需求的不断提高,实时OLAP系统获得了广泛关注,基于Spark平台的内存计算能力,有助于实现实时OLAP系统的实时数据分析.星型联接是OLAP系统的基础核心操作之一,对OLAP系统性能影响很大.本文提出了一种能够适合Spark环境下并结合多维Bloom Filter的星型连接算法SMDBFSJ(Spark Multi Dimensional Bloom Filter Star Join),首先根据维表构建Bloom Filter,利用其占用空间小的特点,广播到所有节点;然后在本地节点完成事实表过滤操作;最后,过滤后的事实表与维表进行连接,进而得到最终结果.SMDBFSJ算法避免了事实表数据移动,通过Bloom Filter减小了需要广播连接和重划分连接的优势.实验结果证明了算法的有效性,在单机和集群环境下,算法相比重划分连接均获得了三倍左右的性能提升.
其他文献
肺癌(lung cancer)居于恶性肿瘤首位,在中国其发病率与死亡率都是最高的。肺癌分为非小细胞肺癌(non-small-cell lung cancer)和小细胞肺癌(small-cell lung cancer),其中非小
本文提出了一种新的集成学习方法。这种方法分为两个步骤,第一步通过使用不同的概率校准方法对原始分类器给出的概率进行校准,第二步使用前一步生成的若干校准后的概率进行
小麦蚜虫是危害小麦的主要害虫.其发生程度预测特别是短期预测一直是植物保护领域难以解决的科学问题.传统预测方法多仅采用温湿度,预测结果与实际发生匹配度不高.基于大
AAC(Advanced Audio Coding)是一种高效音频编码标准,目前已逐步取代MP3,在移动互联网中得到广泛应用,基于AAC压缩域的隐写给互联网信息内容的安全传输带来了新的挑战。
天然产物是药物的重要来源。放线菌(Actinomycetes)在产生抗生素方面具有独特的优势,大约75%的抗生素都是由放线菌产生,从植物内生放线菌的次级代谢产物中,可以分离到许多结构新颖,生物活性多样的化合物。红树植物生长于海岸潮间带,其独特的生存环境赋予它丰富的微生物资源,是当前倍受重视的药用新资源。本论文对采集自福建省漳州市浮宫镇九龙江口、福建省厦门市集美和海沧三个地点的两种红树植物(秋茄和桐
松材线虫病是一种由松材线虫引起的林业毁灭性病害,在我国多个省市严重发生,造成了巨大经济损失。迄今为止,国内外对松材线虫病开展了大量的研究,但针对松材线虫本身的基础性
本研究选取了鼎湖山南亚热带森林演替早期:马尾松(Pinus massoniana),中期:荷木(Schima superba)、黧蒴(Castanopsis fissa)和顶级阶段的优势树种:黄果厚壳桂(Cryptocarya concinna)、肖
二氧化碳氧化乙烷脱氢制乙烯工艺是一个具有环境和资源替代式经济双重效益的绿色过程.采用CO作为温和氧化剂参与反应,不仅可以提高乙烯选择性;还可以减少温室气体CO排放,实现
数据划分是分布式数据库实现并行化事务处理所面临的首要挑战.通常,传统数据划分方法没有考虑所执行数据划分的逻辑一致性.这造成分布式数据库中单一事务经常需要在不同
蚕是重要的经济昆虫,同时也是鳞翅目的模式昆虫,蚕丝产业在我国拥有5000多年的悠久历史,在社会经济文化生活中占有重要地位。同时,家蚕功能基因组学的研究将为全面、准确地了解家