基于Spark的DSP数据仓库优化的研究与实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:ciedan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,当代社会是计算机信息科技技术高速发展的现代社会。各行业伴随着“互联网+”这个风潮迅速发展,产生了大量不同领域的互联网数据。企业运营产生数据,数据仓库依据数据为企业各级别的决策提供策略,企业的发展与数据的关系越发紧密,所以我们迫切的需要寻求一种新的大数据处理优化方法和技术支撑企业的发展。现在比较流行的大数据计算框架是Hadoop和Spark,大部分公司学习并采用该技术能够满足自身业务的需要。在这种情况下,本文针对DSP(Demand-Side Platform)需求方广告投放行业提出了基于Spark的数据仓库优化的研究设计。通过对数据仓库的各个流程进行严格分析,为使整体数据处理流程效率提高,分别选择从框架流程、数据存储、数据处理三方面进行全方位递进式优化。在数据仓库的框架中,当数据从数据源传送到Hadoop的Spark的过程中,选择加入高吞吐量分布式的发布订阅消息系统即Kafka,进而可以实现快速统一线上和离线的消息。对于数据存储速度慢的问题,Spark Streaming从HBase和HDFS(Hadoop Distributed File System)组合的开源数据库中读写数据,采用分区连接的方式可以加快数据存取的速度。而针对数据倾斜现象的数据处理阶段,采用抽样聚合算法的方案,能够较好的解决数据大小分配不一致导致的极大任务拖慢整个任务完成进度的现象。经过实验数据的测试比较,针对普通数据即非倾斜数据,数据仓库优化方案花费的时间整体比传统的数据仓库操作过程减少10%以上,同时提高了系统的吞吐率和存储性能。针对倾斜数据,本文提出的抽样聚合算法在保证数据处理结果准确的情况下,能够较快地聚合数据,进而较好地提高整体的数据仓库执行效率。
其他文献
随着社会和经济的飞速发展,注册会计师作为一个特殊的经济主体在经济运行中发挥着越来越重要的作用,他们提供的审计服务质量的好坏对整个经济机制的运行都产生着至关重要的影
目的探讨线粒体脑肌病的影像学诊断与鉴别诊断。方法回顾性分析我院收治的2例经骨骼肌活检证实为线粒体脑肌病患者的临床及影像学资料,并结合相关文献进行讨论。结果例1头颅C
日前,上海三共制药有限公司与三共株式会社发出公告称,该公司已就北京万生药业有限责任公司制造奥美沙坦片的行为,向北京市第二中级人民法院提起诉讼,请求法院判令其停止使用该专
报纸
村屯绿化是社会主义新农村建设的重要内容之一,是国土绿化美化的重要组成部分,是展现生态文明成果的重要标志。近年来,吉林省在开展"美丽乡村"建设中,启动了"示范森林小镇"和
绿色物流管理作为一种新的物流管理方式,符合时代发展的要求与人类生存发展的利益,所以是未来物流管理发展的方向和趋势。本文分析了绿色物流在我国的发展状况,并从不同角度
给出一种基于LINUX嵌入式操作系统的双栈机顶盒软件实现,能同时支持IPv4和IPv6,重点研究如何在嵌入式操作系统上兼容IPv6的协议栈,围绕具体改造内容展开研究和实践,开发出了
<正> 近年来,随着医疗卫生保健事业的迅速发展,人民生活水平的不断改善,一般人的寿命都有了显著的增长。因此,对老年病的研究工作已成为日益迫切的现实课题。随着年龄的增长,
目的:分别采用生物陶瓷iRoot SP根管封闭剂配合单尖法根管充填技术与AH-plus根管封闭剂配合热牙胶连续波根管充填技术对患有慢性根尖周炎的患牙进行根管治疗,观察使用两种充
基于可信计算的思想,提出基于可信计算的车联网云计算安全模型的架构;针对车载通信设备提出了身份认证和信任度评估的框架,并在该框架基础上给出了密钥管理结构和移动节点认
研究了超声辅助提取新疆沙棘果实中的总黄酮。建立并运用三波长分光光度法测定沙棘总黄酮的含量;采用正交试验方法确定沙棘果实总黄酮的超声辅助提取最佳条件。最佳工艺参数