论文部分内容阅读
当今社会,随着信息技术的不断发展,企业为了适应彼此间日趋频繁的业务活动和提高自身竞争力,投入大量资源研发针对各部门需求的业务系统。然而这些业务系统功能各异,彼此之间相互独立,各自的数据存储和访问方式都不相同。随着企业的日益壮大,企业内部数据呈现出数据量越来越大,数据来源与数据存储格式越来越多样化以及数据存储位置越来越离散化等特点。对一个企业来说,如何有效利用这些数据信息以及如何快速在的海量数据中获取对企业商业决策有利的信息,直接关乎企业的生死存亡,所以企业越来越重视如何将数据在逻辑上或者物理上有机地集中在一起,从而能为企业和部门提供更加全面的数据共享,使得企业能对商业信息的快速变化做出决策。实时数据集成技术是解决上述问题的关键技术。课题以数据集成作为研究背景,阐述了国内外数据集成技术的研究现状,并对课题相关技术做了简要介绍。在分析现有数据集成技术基础上,针对当今大数据环境下企业对数据实时性的需求,研究实现一个实用可靠的支撑大数据的实时数据集成系统。系统主要就集成数据实时性保障和对大量数据实时集成过程中系统稳定性保证两方面做相关研究。本文首先在研究传统数据集成系统架构和分析实时数据集成的功能和应用需求的基础上,提出一个通用的实时数据集成架构。然后从实时数据集成过程上分析,实时数据集成主要分为数据实时抽取、实时转换和实时加载三部分。在数据实时抽取问题上,通过分析在异构多源环境下数据实时抽取的过程与难点,提出了基于消息中间件的数据实时抽取方法,能快速有效的对不同数据源实现实时数据增量抽取任务。对于数据实时加载,采用基于实时数据缓存的的数据实时加载方法,实现在不影响数据仓库性能和保证集成数据实时性的情况下对大量集成数据的实时加载。然后针对数据实时转换过程,本文提出基于规则引擎的数据预处理方法和基于任务实时性需求的并发任务调度策略来优化转换过程,提高数据转换效率并保障转换任务的稳定性和集成数据的实时性。在最后,本文通过仿真实验对实时数据集成系统进行了测试,并根据实验结果分析验证了系统的可用性和稳定性。