基于Hadoop的数理统计功能集的研究与实现

被引量 : 1次 | 上传用户:a273582760
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,许多企业尽可能详细地收集数据,使用的数据仓库的大小从TB级到PB级,企业能否对这些海量数据进行分析是市场竞争力的关键所在。数理统计分析是一种运用数理统计学的知识来分析数据的经典方法,借助于数理统计分析,用户可以直观地了解被分析数据的数量特征,这些特征包括:集中趋势、离散趋势和分布趋势。此外,使用数理统计方法分析样本数据(sample)能够对数据总体(population)进行推断。传统单机版本的数理统计算法由于受到机器内存的限制,处理的数据规模有限。为了扩大处理数据的规模,本文基于Hadoop设计并实现了一套并行的数理统计功能集,该功能集是“基于云平台的数据挖掘工具’’(BC-PDM)的一个重要模块,基于云平台以SaaS (software-as-a-service)的方式为用户提供数理统计分析服务。论文的主要工作包括:首先,作者调研了当前流行的数理统计软件(SAS、IBM SPSS等),根据调研结果,将本数理统计功能集分为描述统计功能和推断统计功能两个子集。描述统计功能集包含一个分析数据数量特征的功能。推断统计功能集功能较多,包括:单因素方差分析、一元线性回归、单个正态总体均值的检验、两个正态总体均值差的检验、基于成对数据的检验、单变量分析和多变量分析。然后,作者研究了各拟实现功能的原理并给出单机算法的设计与实现,在此基础上,进一步给出了基于MapReduce匡架的并行算法的设计与实现。最后,作者通过大量实验检验了各并行算法的功能和性能。实验结果表明:各并行算法功能正确,处理小规模数据时,相对于单机算法并行算法性能并不占优,但随着数据规模的扩大,并行算法的性能优势就越来越明显,证明了论文设计实现的并行算法是合理、高效的。
其他文献
近几年来,国内外银行业等金融机构频繁发生重大要案,这对银行资金安全造成直接影响,在国内,由于银行业管理层对操作风险的控管不足、造成从业人员的防范意识不够,常常造成重
新疆文化交流的资源、区位、体制机制和政策优势十分突出,但也存在着对其重要作用认识不到位、跨文化交流能力较弱、工作开展的有效性较差、人才匮乏、本地少数民族优秀文化
目的探讨目前昆山市生产性噪声的危害状况,初步建立昆山市生产性噪声危害基线资料,并分析2009年~2011年三年内噪声危害变化趋势,建立昆山生产性噪声危害预警机制。方法本文以
基于位置信息的服务(LBS, Location Based Service)是近几年来非常吸引人们关注的一个课题。随着内置GPS模块的智能移动终端的广泛普及,使得智能移动终端成为LBS业务实现的最
中国古代耳饰是中国古代首饰中的一个门类,其主要包括:块、耳珰、填(充耳)、耳环、耳坠、丁香、耳钳七大门类。耳饰作为首饰之一员,其位于人的头面两侧,这使得佩戴者会特别赋
互联网络的发展为口碑传播带来了新的发展契机,使其突破了现实环境的限制,极大的扩展了传播的范围和形式。社交型虚拟社区以真实社会关系为依托,具有用户群庞大、用户特征集
酱油是以大豆、小麦、淀粉为主要原料发酵酿制而成的一种具有特殊香气、色泽红褐色、滋味鲜美的调味品,能够增加和改善菜肴的口味,增添菜肴的色泽,增加人们的食欲。从世界范
船舶修造行业是发生安全事故较多的行业之一,本文主要总结了事故的特点和频发原因。
目的:研究老年上消化道出血发病因素及与HP感染的相关性。方法:选取我院以消化性溃疡为诊断而收入院患者300例,进行钡餐及胃镜检查,其中合并出血者125例,未合并出血者175例,
恩格斯说过:“一切存在的基本形式是时间和空间。”这说明任何事物都存在于四维空间中。文学也不例外。那么富有联想和想象意味的诗歌,是如何在极其有限的篇幅中将时间和空间的