基于Spark的PostgreSQL数据分析扩展中间件的研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 2次 | 上传用户:zhenmafanwokao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,在科学研究、互联网应用等诸多应用领域,数据量正快速增长,这些大数据中蕴含着大量的有利于企业进行决策的信息。为了挖掘其中的有用信息,工业界和学术界都提出了越来越多的数据分析算法,传统的关系型数据库无法满足复杂的数据分析需求,新的大数据分析平台应运而生。然而传统的关系型数据库较新的大数分析平台更适应企业现有的架构,且其具备的易用性,易于维护等特性更方便对企业现有系统的维护,因此在关系型数据库的基础上进行扩展相比于全新的平台架构对于企业而言更适应其发展现状。但关系型数据库在面对大数据的分析计算时,比较低效,本文要解决的问题就是在保留关系型数据库的基础上,如何提高关系型数据库的数据分析能力。国内外现有的对关系型数据库数据分析能力进行扩展的解决方案中包括了建立MPP数据库集群以及在大数据分析平台建立SQL查询引擎,但都有其局限性。本文提出的解决方案是在保留传统的关系型数据库结构的基础上,构建中间协议,允许关系型数据库将大数据分析平台作为执行引擎来执行自定义SQL查询函数,并以该协议为基础,构建一端为关系型数据库,另一端为大数据分析平台的异构分析系统。该系统基于中间件中通信协议,接口设计,数据传输,数据处理四个模块的设计,使系统处于松耦合状态,两个平台可以独立的进行数据分析,也可以通过中间件连合使用,使得数据存储和计算模型在物理上隔离,且后台运行的大数据分析平台对关系型数据库不可见,该系统可以扩展到其他的大数据分析平台上,具有高扩展性。系统实现过程中,本文选取了开源关系型数据库PostgreSQL和分布式计算框架Spark作为系统实现的基本组件,并编程实现了中间件,及PostgreSQL和Spark所需的接口。最后,本文通过实验证明了该系统在复杂的数据分析计算上的可用性和高效性,并将该系统用于向公交WIFI用户推荐内容上,进一步验证了系统的高效性及实际应用意义。
其他文献
NCRE全称为全国计算机等级考试,每年上半年、下半年各组织一次。在每年两次的报名工作中,考生的数据录入很让考务人员头疼。这是因为,报名数据手工逐个录入工作量大,费时,容易出错
"双一流"建设战略视野下实行高校院系绩效评估对贯彻落实国家政策、推进学院治理现代化和完善学校资源分配机制具有重要意义。高校构建基于战略规划高度并以绩效为依据的评估
20O1年3月18日,山西介休张壁古堡高级论证会在介休市雄伟庄严的市政府大楼里召开。此次会议由个城镇建设杂志社主办,介休市政府大力配合。市政府大楼的二楼会议室平时坐的都
以[8-(14)C]标记的腺嘌呤和黄嘌呤为底物,对两种可以合成少量咖啡碱和茶叶碱的木荷属和柃木属植物(Schima mertensiana,Eurya japonica)叶片的嘌呤代谢进行了检测研究。发现木荷
目的 探讨综合护理辅助机械通气治疗危重症手足口病的效果。方法 将本院收治的50例危重症手足口病患儿随机分为观察组25例和对照组25例。两组均行相同的临床治疗方案,在机械通
海上风电一步式运输安装船由船体和端部两个带有风电整机的大尺度复合筒形基础组成.一步式运输安装船为非自航船,在运输的过程中通过与拖轮连接提供动力.筒型基础内部布置有
1考察区域简介离学校约6km处有一片区域,有山地、河流,植被覆盖良好,环境污染较轻。该区域各种地质、地貌、植被特征明显,很有代表性,是很好的自然地理实践活动课场所。
机能实验学是一门医学基础综合实践性学科,其主要目的为培养学生临床动手能力与实践技能,提高学生的综合素质。针对不同医学专业的培养目标与专业特点,机能实验学教学应从实
介绍猎德污水处理厂自动化系统的构成和特点,并结合污水处理工艺的运行、设备控制、仪表监测,阐述了一些污水厂自控系统构建、运行、管理方面的注意事项.
自创商誉所产生的支出应作为费用处理,这在一定程度上已达成共识.然而,对于外购商誉的会计处理依然存在着不小的分歧,本文重点探讨外购商誉的会计处理问题.同时,就企业在购并