基于Spark的交互式大数据预处理系统的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：ji1ji2

【摘要】

：

随着信息与网络技术的快速发展，大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息，而数据预处理是整个大数据处理周期中至关重要的环节，高质

【作者】

：

张磊

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

大数据交互式预处理组件模型 Spark框架

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息与网络技术的快速发展，大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息，而数据预处理是整个大数据处理周期中至关重要的环节，高质量的决策依赖于高质量的数据。传统的数据预处理系统并不能很好的适用于大数据环境，企业现阶段主要使用Hadoop相关技术对海量数据进行预处理，但普遍存在耗时长、效率低、无交互、出错重做等问题。数据预处理是一个需要反复尝试的过程，用户往往需要依据数据当前状态决定下一步操作，而现有技术并不能很好的满足这种需求。　　Apache Spark近几年在大数据处理领域备受关注，Spark技术使得大数据交互式处理成为可能。本文提出一种基于Spark的大数据交互式预处理架构，并对其中关键技术展开研究，主要包括以下几个方面:一是提出可扩展的数据预处理组件模型，定义了组件的描述信息与数据模型，支持用户根据应用需求扩展预处理组件;二是研究设计支持交互式处理的SparkContext共享机制，支持大量连续的处理组件可以共享Spark上下文实现高效处理;三是研究了基于采样的交互式数据预处理技术，满足用户可视化交互处理的需求，尽可能不损失数据的代表性。　　本文在上述关键技术研究的基础上开发了一个基于Spark的交互式大数据预处理系统，系统提供一套常用的数据预处理组件，并支持组件的扩展。论文采用系统对脑卒中病人的真实医疗数据进行预处理，来支持后续的数据分析。实验结果表明，该系统能够从功能上满足常用的数据预处理需求，在性能上比采用Hadoop有了很大提升，能够在大数据场景下满足交互式处理的响应时间需求。

其他文献

基于精细农业的信息服务平台的研究与设计

信息化是当今世界发展的大趋势，是推动经济社会变革的重要力量，以信息科学为指导，以信息技术为工具，实现了农业信息化的快速发展。全面推进农业信息服务，是繁荣农村经济、加快现代

学位

精细农业信息服务平台遗传树元数据技术组织模型

元搜索引擎中结果聚合排序方法的研究

如何在互联网的海量信息中找到自己所需要的信息已经成为困扰人们的主要问题。元搜索引擎可以综合多个搜索引擎的查询结果，因而提高了搜索的覆盖率，但同时也带来了一些问题。元

学位

元搜索引擎用户网页模型结果排序

面向手机3D动画的自动生成系统的短信话题检测

全过程计算机辅助动画自动生成技术是将人工智能理论引入到动画制作领域而产生的技术，20世纪90年代由中科院陆汝钤院士提出。全过程计算机辅助手机3D动画自动生成系统(简称手

学位

手机短信动画自动生成信息抽取自然语言处理机器学习话题检测

面向Dockerfile的容器镜像构建工具设计与实现

随着PaaS逐步兴起，以及DevOps和自动化运维的快速发展，基于Docker的容器虚拟化环境成为业务系统的主流部署运行环境之一。Docker生态体系仍然面临着诸多挑战，其中容器镜像的构建

学位

容器虚拟化Docker镜像错误检测逆向工程

支持约束目标最优化的社会网络关键群体挖掘方法研究

近年来，互联网和移动通信技术得到快速发展与广泛普及，越来越多的虚拟社会形态相继出现，比如以Facebook，Twitter，新浪微博等为代表的大型在线社交网络网站，通过手机通信、电子邮件

学位

数据挖掘社会网络关键群体约束目标最优化

面向不明原因发热的临床病历可视分析与挖掘

当前临床医生进行疾病诊治的主要方法是依靠自身的专业知识和诊疗经验，并借助医学检查器械进行辅助检查，缺少有效的辅助方法。一名专业的临床医生往往要经过长时间的知识储备和

学位

电子病历数据挖掘可视分析辅助诊断

基于角色和透明加解密技术的文件访问控制的研究与实现

随着信息技术的不断发展和计算机网络的广泛普及，使得人们对信息安全的重视越来越高。而目前针对信息的保护主要基于系统的安全和网络的安全。本文主要是针对系统设计的安全进

学位

文件保护访问控制过滤驱动透明加解密技术功能模块

基于UEFI BIOS的可信引导机制的研究

为了解决传统BIOS所面临的问题，Intel推出了统一可扩展固件接口(UEFI)的规范标准，定义了操作系统与平台固件之间的可扩展接口。目前，UEFI BIOS凭借自身的模块化、易扩展、预启动

学位

UEFI BIOS标准可信引导安全风险可靠性评估加载组件

深层学习的研究及应用

深层神经网络是一种高变度的函数(highly-varying function)，与许多经典的浅层结构算法相比，以深层神经网络为代表的深层结构有很多优点，近年来引起了极大的关注，并且在逐步在分

学位

深层信念网络训练策略参数值选取对比发散算法受限玻尔兹曼机

Web新闻内容自适应抽取技术研究

学位

基于Spark的交互式大数据预处理系统的设计与实现

与本文相关的学术论文