基于JVM的R语言海量数据统计集成框架研究

被引量 : 0次 | 上传用户:sunwen_fly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模在互联网、生物、天文学等领域的爆炸性增长,如何有效地从这些大规模的数据集中获取有价值信息的能力变得越发重要。R语言作为流行度最高的统计分析语言,它提供了丰富的数据统计功能,但却无法有效的处理海量数据。针对这一问题,设计并实现基于JVM的R语言海量数据统计分析集成框架JRBridge,并以Hadoop为例在该框架上实现R语言与Hadoop的结合,从而一定程度上实现了R语言对海量数据的分布式并行统计能力。为了利用已有海量数据计算框架和编程模型的研究成果,以R语言和海量数据计算框架的集成作为研究思路,分析了各计算框架与R语言进行集成的模型,总结并提出了基于SFAPI和UDFAPI的集成模型。在此模型的理论基础上,针对模型实现中必须满足的系统要求和公共组件,以及当前流行的开源海量数据计算框架大多基于Java虚拟机实现的特征,为了减小R语言与各框架之间的语言鸿沟,设计并实现了基于JRBridge集成框架的R语言海量数据统计分析系统。其中基于JVM的R语言解释执行机制解决了Java环境下执行嵌入式R语言代码的问题;R语言环境下Java类加载机制通过jload、import、$运算符实现了在R环境下对Java API类库调用并执行;R2J和J2R类型转换机制则为存在R与Java环境切换的方法调用提供参数与返回值的类型转换支持。上述机制的相互协作,配合R语言和Hadoop集成插件的实现,最终使得R语言具有了对海量数据统计分析的能力。从功能测试结果看出,通过HDFSAPI插件,它提供了一种使用R语言访问HDFS中海量数据集的方法;通过MapReduce API插件,它提供了一种使用R语言编写MapReduce统计分析代码的方法。性能测试中,在有5个工作节点并行统计的Hadoop集群环境下,词频统计程序在JRBridge集成框架下的执行时间可以达到原始R语言分析时间的1/7,并且随着测试数据集规模的不断提高,JRBridge集成框架呈现出线性可扩展的性能。
其他文献
形象塑造是文学作品成功的关键,它指的是一个形象体系的整体构建。在《巴黎圣母院》中,作家成功地构建出一个整体的形象体系,并在此之下又隐藏着一个象征体系。本文想就此象征体
加强和改进新形势下的政治工作,是铸牢我军军魂的重要保证。军队院校落实习主席关于把政治工作威信在全军牢固立起来这一指示要求,要把握好教学关键环节,着力提升政治理论的
随着信息时代的到来,教育技术无论是在教师的教中还是学生的学中,都得到了广泛的应用,并发挥着越来越重要的作用。本文阐述了网络环境下教师教育技术混合培训模式的内涵,构建
当前,大数据、云计算、移动互联网等新技术不断涌现,军队信息网络建设迎来难得发展机遇,要把全军政工网打造成官兵的精神家园、战斗力生成的沃土,迫切需要紧盯互联网发展新理
<正>学兵思想政治工作是教学训练工作的重要组成部分。抓好学兵的思想教育工作,对于促进教学质量的提升至关重要。针对学兵培训时间短、成分复杂的特点,提高"把脉问诊"的能力
为了能够更加适应新课程改革的实际要求,解除教师在新的教学环境产生的困惑,就相关问题进行了深入地探究。首先,深入地剖析了教师自我认同的内涵;接着,从不同的角度讨论了教
农业面源污染作为一种主要的环境污染形式,历来受到政府和学界的广泛关注。本文立足于农业劳动力持续转移的现实,在充分考虑农户"二元身份"性质的基础上,尝试构建农户兼业对
当前,国际核裁军进程遇到的一个主要问题,是美俄两个核大国能否在新的《战略武器削减条约》(新START条约)基础上进一步削减战略核武器数量。其主要的障碍是,美俄难以突破“相互确
在企业生产中,库存是由于无法预测未来需求变化,而又要保持不间断的生产经营活动必须配置的资源。过量的库存会造成大量资金积压沉淀,增大仓储和管理费用,且一旦企业生产发生
随着我国经济高速发展,许多城市将商务区建设提上日程。商务区是城市办公、商业等功能重要聚集地,景观面貌对城市至关重要。在商务区规划设计中,暴露出以下两个问题:一,城市设计缺