基于Spark的大数据处理关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lahaidong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的蓬勃发展,推动世界进入大数据时代。网络数据在规模上趋于爆炸式增长,在种类上趋于多样化,在价值上趋于低密度化,在来源上趋于分散化,在处理需求上趋于实时化。自从Google公司发表MapReduce、BigTable、GFS三篇论文以来,出现了大量优秀开源项目,使得大数据技术逐渐成熟,并演化出丰富的大数据生态圈。从数据的生命周期来看,大数据的主要技术可以分为数据采集、数据集成、数据存储和数据处理四类。数据采集用于从数据源头获取数据,数据集成用于整合多个系统的数据,数据存储用于永久化储存数据,数据处理用于分析数据。日志分析是大数据处理的一类典型应用。日志是企业重要的数据,不仅包含了用户行为,还记录了程序错误、性能指标和系统工作状况。通过对日志的分析,可以获取用户偏好并挖掘商业价值、快速定位程序错误和性能瓶颈、发现系统潜在问题和风险。目前日志数据处理主要采用批处理技术,这种处理方式缺乏实时性,使得系统告警、入侵检测、风险控制等强实时性的信息无法被及时处理。本文面向日志数据的实时收集与处理,研究了数据收集、集成、存储与处理中的关键技术,设计实现了日志实时收集与分析平台。该平台收集服务器集群日志,并使用实时处理技术对日志加以分析。该平台主要由三个部分组成:1.数据收集层。数据收集层使收集过程透明化、可扩展化并拥有容错性。在数据收集层中实现权重负载均衡算法,使收集过程拥有更好的负载均衡。此外,还设计了分布式配置管理方案,使得数据收集端管理自动化。2.数据集成层。数据集成层使分散的日志数据得以汇总,并为分析系统提供数据缓冲。为了使集成层拥有更好的负载均衡,设计实现了基于先验知识的数据分配算法。3.数据分析层。数据分析层处理实时日志数据。在Spark原有SQL查询基础上,实现了实时数据的动态SQL查询。动态SQL查询避免了重复提交Spark任务,提供了更便捷的日志查询功能;在Spark实时处理框架上,基于实时数据特点,实现缓存系统,减少Spark Streaming作业获取数据的时间,带来10%-20%的速度提升。
其他文献
过渡金属离子催化烷烃的脱氢反应引起了科学家的关注,因为它在氢能源上的应用较为广泛。截至目前,过渡金属离子作为催化剂催化烷烃的反应已经进行了大量的实验和理论研究。研
本文主要研究了指数函数系{eλz}在几个不同函数空间中的循环性.同时也讨论了函数系{eλnz}和缺项多项式的完备性.全文主要内容如下:第一章简单介绍了本文的研究背景与现状,同时说明相关的预备知识及本文的结构安排.在第二章中以准解析方法为主要工具,研究了指数函数系在实轴上带非负凸权的加权Banach空间Cα中的循环性问题.第三章利用同样的方法得到函数系在Hilbert空间La2(Ω)中的循环性.第四
近年来,贵金属纳米簇由于其独特的物理、电学和光学性质,在催化、化学传感器、电子器件和生物成像中广泛应用。由几个到几十个金属原子组成的金属纳米簇具有接近电子费米波长的尺寸,并且由于离散的能级和量子限制,它们表现出明显的光致发光特性。目前,大量以Au NCs和Ag NCs为探针的荧光检测方法被开发,这些检测方法一般都是根据检测物质对纳米簇荧光的猝灭建立起来的。与荧光猝灭的方法相比较,荧光增强的检测方法
当前,智能视频监控的应用越来越广泛,人体对象再识别技术也日益重要,是受到众多研究者关注的一个热点方向。人体对象再识别,就是在非重叠的多摄像机监控系统中,输入以人体对象为中心的带边框的图像,能够通过相似性度量的方法,识别出一个感兴趣的目标对象。由于每个摄像机的摄像头成像时的特征、拍摄时的角度、拍摄环境下的光照都各不相同,拍摄到的运动目标外观发生很大变化,非重叠域监控网络中的目标匹配比较困难。为了解决
随着对机器学习研究的不断深入,机器学习算法的应用场景正在不断扩大。虽然大部分应用所处的环境都是没有威胁的,但是也有一部分是在对抗环境中的。在这些领域中,机器学习算法本身可能会成为一个新的弱点。本论文的目的是希望提高机器学习算法在对抗环境中的抗攻击性。而现有研究表明,改进效果最佳的方式便是将少量模拟攻击的样本添加入训练集,于是提高学习算法抗攻击性的问题就转化为提出更符合实际情况的攻击模拟算法。所以本
本文针对贴片电阻在电镀过程中,出现电极脱落的现象,进行了分析。找出导致该现象产生的原因,以及防止电极脱落的措施。
双足机器人因其运动灵活性、对环境的良好适应性、可代替人类完成任务的优良特性得到了许多研究人员的关注,随着人工智能的兴起,人们对双足机器人的运动稳定性、自主导航能力
新型城镇化是一个国家经济社会现代化的必经之路,能够为新时代下经济新常态的持续健康发展提供充足的动力;房地产业是宏观经济运行的晴雨表,其联动效应带来的上下游产业影响
机械旋转设备在监测过程中产生的数据,会带来数据存储,数据传输、数据挖掘等一系列问题。因此对监测数据进行稀疏分解,通过稀疏分解的方法提取具有高信息、高价值的故障特征,
高镁安山岩为一类相对富镁的中性火山岩(SiO2=54-65 wt.%,Mg#≥45),一般分布于岛弧环境,其形成往往与板块俯冲密切相关。位于大兴安岭中段的内蒙古阿尔山市五岔沟地区分布了面积达700平方公里的新生代火山岩,其岩性为安山质熔岩,这在中国东部新生代火山岩(以玄武岩为主)中非常罕见。这些新生代安山岩与新生代玄武岩一样,均是板内岩浆作用的产物。但其元素地球化学特征与岛弧高镁安山岩相似:SiO