论文部分内容阅读
随着互联网一直以来的高速发展,各行各业都得到了快速的发展,这也加速推动了大数据时代的到来,无论企业的大小,它们在使用数据上都面临着一个挑战,那就是企业数据量越来越大。因此需要对数据进行治理以确保容易的使用高质量数据,保证企业能更快的提取有效的数据信息。目前很多公司自行收集的数据文件都是比较原始的而且管理较为混乱,经常会以不同的结构存储在不同的存储结构中,而且这些数据文件数据体量大、数据文件多,格式杂,内容乱,数据价值难以评估,企业难以从数据中快速获取有用的信息,难以形成有效的业务应用,也无法很好的梳理和这些数据有关的业务逻辑。所以迫切需要对这些原始数据进行处理,提升数据应用价值,解决数据孤岛等问题,为后续的业务应用提供坚实的数据基础。根据现在存在的问题,本论文所提供的解决方案是多源大数据处理与分析的平台,旨在帮助企业将混乱的零散数据整理成清晰有条理可追溯的高质量数据,帮助企业梳理数据关系,挖掘数据信息。该平台是基于微服务架构的,后台采用的是Spring Cloud框架进行开发,平台的每一个功能模块都是相对独立的微服务模块,这样可以保证每一个不同的服务都是可插拔式的,保证整个系统的健壮性以及可扩展性。同时使用zuul网关进行权限认证保证服务调用的安全性。在数据处理部分主要采用的spark集群进行快速的数据处理和分析。在系统的迭代开发过程中结合Gitlab以及Jenkins进行持续集成持续部署,保证系统的迅速集成迭代部署。系统的功能点主要包括数据标准管理,数据清洗,数据集成,数据质量稽核以及元数据管理。本文将从需求分析,系统设计,系统实现与测试等方面对平台各个模块进行详细的设计和实现阐述。在整个项目的开发过程中,本人参与了平台前期的需求分析以及系统设计,之后参与了平台功能模块的后台Java代码编写,同时负责平台的持续集成持续部署等内容,后期参与了平台测试和上线部署。本论文中的项目已经上线并处于beta测试阶段,已经向部分的金融企业提供数据管理服务。目前系统能够正常为企业提供数据管理服务,同时在安全性,健壮性等方面都满足预期要求。