论文部分内容阅读
当前,许多企业尽可能详细地收集数据,使用的数据仓库的大小从TB级到PB级,企业能否对这些海量数据进行分析是市场竞争力的关键所在。数理统计分析是一种运用数理统计学的知识来分析数据的经典方法,借助于数理统计分析,用户可以直观地了解被分析数据的数量特征,这些特征包括:集中趋势、离散趋势和分布趋势。此外,使用数理统计方法分析样本数据(sample)能够对数据总体(population)进行推断。传统单机版本的数理统计算法由于受到机器内存的限制,处理的数据规模有限。为了扩大处理数据的规模,本文基于Hadoop设计并实现了一套并行的数理统计功能集,该功能集是“基于云平台的数据挖掘工具’’(BC-PDM)的一个重要模块,基于云平台以SaaS (software-as-a-service)的方式为用户提供数理统计分析服务。论文的主要工作包括:首先,作者调研了当前流行的数理统计软件(SAS、IBM SPSS等),根据调研结果,将本数理统计功能集分为描述统计功能和推断统计功能两个子集。描述统计功能集包含一个分析数据数量特征的功能。推断统计功能集功能较多,包括:单因素方差分析、一元线性回归、单个正态总体均值的检验、两个正态总体均值差的检验、基于成对数据的检验、单变量分析和多变量分析。然后,作者研究了各拟实现功能的原理并给出单机算法的设计与实现,在此基础上,进一步给出了基于MapReduce匡架的并行算法的设计与实现。最后,作者通过大量实验检验了各并行算法的功能和性能。实验结果表明:各并行算法功能正确,处理小规模数据时,相对于单机算法并行算法性能并不占优,但随着数据规模的扩大,并行算法的性能优势就越来越明显,证明了论文设计实现的并行算法是合理、高效的。