基于Hadoop的海量期货数据的分布式存储和算法分析

被引量 : 0次 | 上传用户:zengyuzhuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
期货交易作为一种重要的投资和保值工具,近年来得到了快速的发展,随之而产生的数据也在日益增长,而加快对期货数据的信息资源的整合利用的重要性也就日渐突出。我们可以通过数据挖掘和统计等工具从中发现具有重要价值的信息,传统的数据挖掘模式可以做到这一点,但是随着数据量的不断上涨,出现了一些制约传统数据挖掘模型的因素。首先是对海量数据的存储问题,面对上TB,PB级的数据,传统的商业单机存储已经不能满足要求,其次在如此大规模的数据上进行数据挖掘分析,传统的单机算法所消耗的时间也变得让人难以忍受。在本文中,我们提出一种针对期货行业的海量数据,运用商业计算机集群来实现数据的分布式存储和并行数据挖掘的解决方案。这一方案的实现的基础是由Doug Cutting开发的Hadoop。该框架是由java实现的开源分布式计算框架,其基础为HDFS和Mapreduce,在其上所构建的分布式应用具有很强的规模性,可扩展性和容错性。方案由总体设计和具体实现两部分。首先,我们提出了一种适用于海量数据存储和挖掘的体系结构,该结构用到了软件体系结构中比较著名的层次结构模型,这种设计使得我们的应用具有很强的灵活性和可扩展性。另外,我们针对各层进行了简单的实现,这些实现包括:web前端,Web service控制层,数据挖掘插件,Hbase存储四个部分,其中对于数据挖掘插件的开发我们进行了较为详细的说明。在实现方案中,首先我们在页面上使用WebService和Ajax技术来进行参数的提交,通过这两者我们节省了网络带宽,同时达到了消除异构性的目的。在后台,我们通过Spring的Ioc容器来启动服务,减小了代码的侵入性,同时也很好地管理了服务之间的相互依赖。在数据挖掘插件的开发方面,我们实现了Parallel FP-Growth算法,使用了maven来进行插件的开发,这使得我们的应用更加的具有可管理性和复用性。数据存储方面我们用到了基于列的分布式数据库Hbase,其对于海量数据的存储有很大的优势。
其他文献
针对传统高频电路实验箱实践教学的不足,分析了应用电路仿真软件辅助实验教学的必要性,通过运用Multisim对二极管包络检波电路进行虚拟仿真实验,研究了二极管包络检波电路正
据报道,美国海军苏利文号(SULLIVANS)驱逐舰在2015年7月18日演习中发射的一枚标准-2导弹发生意外爆炸。报道称,事故发生在7月18日上午,当时苏利文号驱逐舰在弗吉尼亚州大西洋
<正> 一、引言 《气象》1984年第12期《小型蒸发器与E-601型蒸发器的对比观测分析》一文,对小型蒸发器(φ20厘米)与E-601型蒸发器的蒸发量进行了对比,并对小型蒸发器观测值偏
氮氧化物是大气主要污染物之一,是造成光化学烟雾和酸雨的主要原因。随着经济的发展,我国电力需求不断增长火电厂氮氧化物排放总量也在日益增加。本文对燃煤烟气脱硝现有技术
介绍了慧鱼创意组合模型构成及应用,分析了慧鱼模型的两种控制方式———PLC控制和电脑控制。在慧鱼模型编程控制软件中,着重介绍了LLWin编程软件。结合生产实践用慧鱼模型搭
高素质高水平的教师队伍建设是高职高专院校人力资源教师建设中一项具有战略意义的基础工程,也是一项长期而艰巨的任务,随着我国高等职业教育的快速发展,高等职业院校教师人
SO2,NOx,颗粒物是燃煤电厂的主要大气污染物,本文主要介绍内蒙古地区火电厂大气污染物的治理措施。
随着时代的发展,社会对高校学生也提出了新的要求,因此各大高校对于学生的培养并不仅仅局限于知识的培养,为了培养出“德智体美劳”全面发展的高素质人才,学生的健康也是高校
为实现对软件测评实验室能力比对测试结果的定量分析与评价,本文在融合参加能力比对测试各方所发现软件缺陷的基础上,以测试广度和测试深度作为评价要素,选取正态分布作为趋
武器系统评估及技术评价是进行方案择优、控制研制风险、研发时间及经费、提升武器性能的有效途径。对于远程临近空间滑翔飞行器这种新型的武器系统,在飞行过程中面临长航时