支撑大数据的实时数据集成系统的研究与实现

来源 :电子科技大学 | 被引量 : 11次 | 上传用户:RockyZhang111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,随着信息技术的不断发展,企业为了适应彼此间日趋频繁的业务活动和提高自身竞争力,投入大量资源研发针对各部门需求的业务系统。然而这些业务系统功能各异,彼此之间相互独立,各自的数据存储和访问方式都不相同。随着企业的日益壮大,企业内部数据呈现出数据量越来越大,数据来源与数据存储格式越来越多样化以及数据存储位置越来越离散化等特点。对一个企业来说,如何有效利用这些数据信息以及如何快速在的海量数据中获取对企业商业决策有利的信息,直接关乎企业的生死存亡,所以企业越来越重视如何将数据在逻辑上或者物理上有机地集中在一起,从而能为企业和部门提供更加全面的数据共享,使得企业能对商业信息的快速变化做出决策。实时数据集成技术是解决上述问题的关键技术。课题以数据集成作为研究背景,阐述了国内外数据集成技术的研究现状,并对课题相关技术做了简要介绍。在分析现有数据集成技术基础上,针对当今大数据环境下企业对数据实时性的需求,研究实现一个实用可靠的支撑大数据的实时数据集成系统。系统主要就集成数据实时性保障和对大量数据实时集成过程中系统稳定性保证两方面做相关研究。本文首先在研究传统数据集成系统架构和分析实时数据集成的功能和应用需求的基础上,提出一个通用的实时数据集成架构。然后从实时数据集成过程上分析,实时数据集成主要分为数据实时抽取、实时转换和实时加载三部分。在数据实时抽取问题上,通过分析在异构多源环境下数据实时抽取的过程与难点,提出了基于消息中间件的数据实时抽取方法,能快速有效的对不同数据源实现实时数据增量抽取任务。对于数据实时加载,采用基于实时数据缓存的的数据实时加载方法,实现在不影响数据仓库性能和保证集成数据实时性的情况下对大量集成数据的实时加载。然后针对数据实时转换过程,本文提出基于规则引擎的数据预处理方法和基于任务实时性需求的并发任务调度策略来优化转换过程,提高数据转换效率并保障转换任务的稳定性和集成数据的实时性。在最后,本文通过仿真实验对实时数据集成系统进行了测试,并根据实验结果分析验证了系统的可用性和稳定性。
其他文献
虚拟植物是指利用虚拟现实环境对植物的生长过程进行模拟的技术。虚拟植物是一个综合性研究课题,涉及到应用数学,计算机科学,农林学,生态学等学科理论,是当前的一个研究热点
指代消解是自然语言处理的重点和难点之一,在信息抽取,文本摘要等应用中都涉及到指代消解问题。待消解项识别是指代消解的一个子任务,是制约指代消解性能的关键要素之一,也是
随着网络的快速发展,网络资源和信息也呈爆炸性增长。对于这些海量的信息,越来越多的人都愿意通过使用搜索引擎从网络上查找自己需要的信息。但是基于关键词匹配的传统检索系
网络安全问题日益严峻,已有的传统方法已经不再能够满足日益增长的网络安全问题的需要,单CPU双总线安全计算机体系结构(简称sCPU-dBUS)从改变计算机体系结构的角度来保障计算
Web服务和语义Web是WWW发展的两个重要趋势,两者具有很好的互补性,这两种技术的结合产生了另一个新兴的研究课题——语义Web服务。语义Web服务指的是用语义Web标记语言来描述
Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。首先,Web规模的膨胀使得整个Web上的有用信息
随着因特网信息量的爆炸式增长,搜索引擎已经是有效获取信息的一种必要手段。为了满足专门学科领域和特定主题的搜索用户要求,主题搜索引擎在数据挖掘及信息检索领域变得越来
本文结合东莞电信实业管理系统的开发,提出了基于SOA (Service-Oriented Architecture)的连锁业务系统的解决方案,分析了该方案的原理和优势,并采用WCF (Windows Communicati
流体仿真以及大规模的人群行为模拟一直是计算机图形学的难点与重点,经过研究者的大量的数据分析与钻研,提出了各种各样的理论与算法。本文将流体仿真以及大规模人群行为模拟
生物信息学是一门新兴的交叉学科,它需要生物学、计算机科学以及数学三门学科的高级研究人员通力合作来完成。生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和