基于Spark的交互式大数据预处理系统的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ji1ji2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息与网络技术的快速发展,大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息,而数据预处理是整个大数据处理周期中至关重要的环节,高质量的决策依赖于高质量的数据。传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop相关技术对海量数据进行预处理,但普遍存在耗时长、效率低、无交互、出错重做等问题。数据预处理是一个需要反复尝试的过程,用户往往需要依据数据当前状态决定下一步操作,而现有技术并不能很好的满足这种需求。  Apache Spark近几年在大数据处理领域备受关注,Spark技术使得大数据交互式处理成为可能。本文提出一种基于Spark的大数据交互式预处理架构,并对其中关键技术展开研究,主要包括以下几个方面:一是提出可扩展的数据预处理组件模型,定义了组件的描述信息与数据模型,支持用户根据应用需求扩展预处理组件;二是研究设计支持交互式处理的SparkContext共享机制,支持大量连续的处理组件可以共享Spark上下文实现高效处理;三是研究了基于采样的交互式数据预处理技术,满足用户可视化交互处理的需求,尽可能不损失数据的代表性。  本文在上述关键技术研究的基础上开发了一个基于Spark的交互式大数据预处理系统,系统提供一套常用的数据预处理组件,并支持组件的扩展。论文采用系统对脑卒中病人的真实医疗数据进行预处理,来支持后续的数据分析。实验结果表明,该系统能够从功能上满足常用的数据预处理需求,在性能上比采用Hadoop有了很大提升,能够在大数据场景下满足交互式处理的响应时间需求。
其他文献
信息化是当今世界发展的大趋势,是推动经济社会变革的重要力量,以信息科学为指导,以信息技术为工具,实现了农业信息化的快速发展。全面推进农业信息服务,是繁荣农村经济、加快现代
如何在互联网的海量信息中找到自己所需要的信息已经成为困扰人们的主要问题。元搜索引擎可以综合多个搜索引擎的查询结果,因而提高了搜索的覆盖率,但同时也带来了一些问题。元
全过程计算机辅助动画自动生成技术是将人工智能理论引入到动画制作领域而产生的技术,20世纪90年代由中科院陆汝钤院士提出。全过程计算机辅助手机3D动画自动生成系统(简称手
随着PaaS逐步兴起,以及DevOps和自动化运维的快速发展,基于Docker的容器虚拟化环境成为业务系统的主流部署运行环境之一。Docker生态体系仍然面临着诸多挑战,其中容器镜像的构建
近年来,互联网和移动通信技术得到快速发展与广泛普及,越来越多的虚拟社会形态相继出现,比如以Facebook,Twitter,新浪微博等为代表的大型在线社交网络网站,通过手机通信、电子邮件
当前临床医生进行疾病诊治的主要方法是依靠自身的专业知识和诊疗经验,并借助医学检查器械进行辅助检查,缺少有效的辅助方法。一名专业的临床医生往往要经过长时间的知识储备和
随着信息技术的不断发展和计算机网络的广泛普及,使得人们对信息安全的重视越来越高。而目前针对信息的保护主要基于系统的安全和网络的安全。本文主要是针对系统设计的安全进
为了解决传统BIOS所面临的问题,Intel推出了统一可扩展固件接口(UEFI)的规范标准,定义了操作系统与平台固件之间的可扩展接口。目前,UEFI BIOS凭借自身的模块化、易扩展、预启动
深层神经网络是一种高变度的函数(highly-varying function),与许多经典的浅层结构算法相比,以深层神经网络为代表的深层结构有很多优点,近年来引起了极大的关注,并且在逐步在分
学位