多源大数据处理与分析平台的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:tk6014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网一直以来的高速发展,各行各业都得到了快速的发展,这也加速推动了大数据时代的到来,无论企业的大小,它们在使用数据上都面临着一个挑战,那就是企业数据量越来越大。因此需要对数据进行治理以确保容易的使用高质量数据,保证企业能更快的提取有效的数据信息。目前很多公司自行收集的数据文件都是比较原始的而且管理较为混乱,经常会以不同的结构存储在不同的存储结构中,而且这些数据文件数据体量大、数据文件多,格式杂,内容乱,数据价值难以评估,企业难以从数据中快速获取有用的信息,难以形成有效的业务应用,也无法很好的梳理和这些数据有关的业务逻辑。所以迫切需要对这些原始数据进行处理,提升数据应用价值,解决数据孤岛等问题,为后续的业务应用提供坚实的数据基础。根据现在存在的问题,本论文所提供的解决方案是多源大数据处理与分析的平台,旨在帮助企业将混乱的零散数据整理成清晰有条理可追溯的高质量数据,帮助企业梳理数据关系,挖掘数据信息。该平台是基于微服务架构的,后台采用的是Spring Cloud框架进行开发,平台的每一个功能模块都是相对独立的微服务模块,这样可以保证每一个不同的服务都是可插拔式的,保证整个系统的健壮性以及可扩展性。同时使用zuul网关进行权限认证保证服务调用的安全性。在数据处理部分主要采用的spark集群进行快速的数据处理和分析。在系统的迭代开发过程中结合Gitlab以及Jenkins进行持续集成持续部署,保证系统的迅速集成迭代部署。系统的功能点主要包括数据标准管理,数据清洗,数据集成,数据质量稽核以及元数据管理。本文将从需求分析,系统设计,系统实现与测试等方面对平台各个模块进行详细的设计和实现阐述。在整个项目的开发过程中,本人参与了平台前期的需求分析以及系统设计,之后参与了平台功能模块的后台Java代码编写,同时负责平台的持续集成持续部署等内容,后期参与了平台测试和上线部署。本论文中的项目已经上线并处于beta测试阶段,已经向部分的金融企业提供数据管理服务。目前系统能够正常为企业提供数据管理服务,同时在安全性,健壮性等方面都满足预期要求。
其他文献
文章采用分层整群抽样的方法,选取新疆医科大学各年级、各专业的在校本科大学生200人作为研究对象,通过问卷调查新疆大学生的时尚消费与科学消费观行为,试图为新疆大学生科学
1980-1994年商丘地工小麦平均亩产由126kg提高至203kg,增长61.1%推广高产稳产,抗逆性强,适应性广的新品种,精量匀播,平衡施肥及病虫害综合防治为增产的主要原因。某些年份的减产与生产,生态,技术,品种等因素失
目的 探讨体外受精-胚胎移植(IVF-ET)中胚胎碎片对临床妊娠率及种植率的影响。方法 观察246例行IVF-ET或卵母细胞浆内单精子注射病人胚胎碎片与临床妊娠率的关系。结果 与正常
非Q波心肌梗死(NQMI)发病率呈逐年上升趋势,可能与近年来敏 感的诊断指标、早期溶栓、阿斯匹林及肝素应用有关。兹就NQMI 148例,作一回顾性临床分析。
本文从航空器评审(AEG)概念的提出、意义、工作内容等入手,介绍并对比了美国联邦航空局(FAA)、欧洲航空安全局(EA-SA)及我国民用航空局(CAAC)航空器评审工作的发展和现状,研
阐述了VOCs的来源与危害,介绍了对挥发性有机物处理的三种新技术:低温等离子体技术、光催化技术以及膜分离技术。这些新技术的研究都在逐步深入,并取得了一定成果。由于单一
都江堰缔造了“天府之国“,是成都市国民经济和人民生活的主要供水水源,是成都市的生命线.随着国民经济的发展,成都市水资源供需矛盾日趋突出,已亮出黄牌.成都人民对紫坪铺水
本文运用文献资料法、观察法、访谈法等研究方法,对北京体育大学学生社团负责的体育赛事的赞助现状进行分析,并得出校内赞助活动存在的问题,通过调研及访谈进行问题的解决,找
在不损伤枝条的前提下,实现对桑叶的连续自动采收是非常困难的。为了解决桑叶人工收获费时费力的问题,相关研究者提出了杂交桑草本化栽培的方案,采取直接收割桑条的方式,可大
随着我国工业企业飞速发展,机加工行业切削液的消耗量不断增加,随之产生大量的危险固废—废切削液。废切削液成分复杂,性质稳定且可生化性差,是一种高浓度难降解的有机废液。