论文部分内容阅读
随着信息与网络技术的快速发展,大数据已经影响到每一个行业。大数据的价值在于从各种类型的数据中快速获取有用的信息,而数据预处理是整个大数据处理周期中至关重要的环节,高质量的决策依赖于高质量的数据。传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop相关技术对海量数据进行预处理,但普遍存在耗时长、效率低、无交互、出错重做等问题。数据预处理是一个需要反复尝试的过程,用户往往需要依据数据当前状态决定下一步操作,而现有技术并不能很好的满足这种需求。 Apache Spark近几年在大数据处理领域备受关注,Spark技术使得大数据交互式处理成为可能。本文提出一种基于Spark的大数据交互式预处理架构,并对其中关键技术展开研究,主要包括以下几个方面:一是提出可扩展的数据预处理组件模型,定义了组件的描述信息与数据模型,支持用户根据应用需求扩展预处理组件;二是研究设计支持交互式处理的SparkContext共享机制,支持大量连续的处理组件可以共享Spark上下文实现高效处理;三是研究了基于采样的交互式数据预处理技术,满足用户可视化交互处理的需求,尽可能不损失数据的代表性。 本文在上述关键技术研究的基础上开发了一个基于Spark的交互式大数据预处理系统,系统提供一套常用的数据预处理组件,并支持组件的扩展。论文采用系统对脑卒中病人的真实医疗数据进行预处理,来支持后续的数据分析。实验结果表明,该系统能够从功能上满足常用的数据预处理需求,在性能上比采用Hadoop有了很大提升,能够在大数据场景下满足交互式处理的响应时间需求。