基于JVM的R语言海量数据统计集成框架研究

被引量 : 0次 | 上传用户：sunwen_fly

【摘要】

：

随着数据规模在互联网、生物、天文学等领域的爆炸性增长，如何有效地从这些大规模的数据集中获取有价值信息的能力变得越发重要。R语言作为流行度最高的统计分析语言，它提供了

【作者】

：

曹杰

【发表日期】

：

2012年期

【关键词】

：

海量数据统计计算集成框架 R语言 Java虚拟机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据规模在互联网、生物、天文学等领域的爆炸性增长，如何有效地从这些大规模的数据集中获取有价值信息的能力变得越发重要。R语言作为流行度最高的统计分析语言，它提供了丰富的数据统计功能，但却无法有效的处理海量数据。针对这一问题，设计并实现基于JVM的R语言海量数据统计分析集成框架JRBridge，并以Hadoop为例在该框架上实现R语言与Hadoop的结合，从而一定程度上实现了R语言对海量数据的分布式并行统计能力。为了利用已有海量数据计算框架和编程模型的研究成果，以R语言和海量数据计算框架的集成作为研究思路，分析了各计算框架与R语言进行集成的模型，总结并提出了基于SFAPI和UDFAPI的集成模型。在此模型的理论基础上，针对模型实现中必须满足的系统要求和公共组件，以及当前流行的开源海量数据计算框架大多基于Java虚拟机实现的特征，为了减小R语言与各框架之间的语言鸿沟，设计并实现了基于JRBridge集成框架的R语言海量数据统计分析系统。其中基于JVM的R语言解释执行机制解决了Java环境下执行嵌入式R语言代码的问题；R语言环境下Java类加载机制通过jload、import、$运算符实现了在R环境下对Java API类库调用并执行；R2J和J2R类型转换机制则为存在R与Java环境切换的方法调用提供参数与返回值的类型转换支持。上述机制的相互协作，配合R语言和Hadoop集成插件的实现，最终使得R语言具有了对海量数据统计分析的能力。从功能测试结果看出，通过HDFSAPI插件，它提供了一种使用R语言访问HDFS中海量数据集的方法；通过MapReduce API插件，它提供了一种使用R语言编写MapReduce统计分析代码的方法。性能测试中，在有5个工作节点并行统计的Hadoop集群环境下，词频统计程序在JRBridge集成框架下的执行时间可以达到原始R语言分析时间的1/7，并且随着测试数据集规模的不断提高，JRBridge集成框架呈现出线性可扩展的性能。

其他文献

千遍万变,巴黎圣母院──简析《巴黎圣母院》中象征体系的建构

形象塑造是文学作品成功的关键，它指的是一个形象体系的整体构建。在《巴黎圣母院》中，作家成功地构建出一个整体的形象体系，并在此之下又隐藏着一个象征体系。本文想就此象征体

期刊

本文理论形象体系象征体系建构

把握教学关键环节着力提升政治理论威力

加强和改进新形势下的政治工作,是铸牢我军军魂的重要保证。军队院校落实习主席关于把政治工作威信在全军牢固立起来这一指示要求,要把握好教学关键环节,着力提升政治理论的

期刊

军队院校政治理论教学环节

基于网络环境的教师教育技术混合培训模式研究

随着信息时代的到来,教育技术无论是在教师的教中还是学生的学中,都得到了广泛的应用,并发挥着越来越重要的作用。本文阐述了网络环境下教师教育技术混合培训模式的内涵,构建

期刊

教育技术混合培训模式教师教育

大力推进全军政工网创新发展

当前,大数据、云计算、移动互联网等新技术不断涌现,军队信息网络建设迎来难得发展机遇,要把全军政工网打造成官兵的精神家园、战斗力生成的沃土,迫切需要紧盯互联网发展新理

期刊

全军政工网互联网大数据

把握“活思想”做好学兵思想工作

<正>学兵思想政治工作是教学训练工作的重要组成部分。抓好学兵的思想教育工作,对于促进教学质量的提升至关重要。针对学兵培训时间短、成分复杂的特点,提高"把脉问诊"的能力

期刊

教学训练思想教育工作

新课程改革背景下教师自我认同的困惑与思考

为了能够更加适应新课程改革的实际要求,解除教师在新的教学环境产生的困惑,就相关问题进行了深入地探究。首先,深入地剖析了教师自我认同的内涵;接着,从不同的角度讨论了教

期刊

新课程改革自我认同困惑对策

农户兼业对农业面源污染的影响研究

农业面源污染作为一种主要的环境污染形式,历来受到政府和学界的广泛关注。本文立足于农业劳动力持续转移的现实,在充分考虑农户"二元身份"性质的基础上,尝试构建农户兼业对

期刊

农业面源污染兼业一家两制农业社会化服务

战略稳定性中的相互依赖因素

当前，国际核裁军进程遇到的一个主要问题，是美俄两个核大国能否在新的《战略武器削减条约》（新START条约）基础上进一步削减战略核武器数量。其主要的障碍是，美俄难以突破“相互确

学位

战略稳定性危机稳定性相互依赖定量评估核裁军

浅析戴尔公司零库存的管理模式

在企业生产中,库存是由于无法预测未来需求变化,而又要保持不间断的生产经营活动必须配置的资源。过量的库存会造成大量资金积压沉淀,增大仓储和管理费用,且一旦企业生产发生

期刊

戴尔零库存低库存管理模式

商务区设计控制研究

随着我国经济高速发展，许多城市将商务区建设提上日程。商务区是城市办公、商业等功能重要聚集地，景观面貌对城市至关重要。在商务区规划设计中，暴露出以下两个问题：一，城市设计缺

学位

商务区开发设计导则设计控制总建筑师协调

基于JVM的R语言海量数据统计集成框架研究

与本文相关的学术论文