基于Kappa架构的批流一体大数据平台研究与实现

被引量 : 0次 | 上传用户:PYY7896321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
批流一体大数据平台是为大数据开发人员、数据分析师等人员提供的,从海量数据中分析潜在价值的工具构建。目前大数据相关平台虽然已经取得一些成果,但仍存在数据链路不能复用且链路之间数据的准确性有出入、数据处理易出现数据倾斜、存储成本大、数据查询分析困难等问题和挑战:1)基于Lambda架构的大数据平台,使用分开的数据链路来处理实时数据与历史数据的存储与计算,其两者是完全割裂的,无法做到统一管理。2)计算引擎在处理数据时,在面对数据的洪峰会出现大量的数据倾斜情况,导致程序运行缓慢甚至出现故障。3)现有的Kappa架构利用Kafka作为历史数据的全量存储,会增加较大的存储成本。4)现有的大数据平台的查询分析引擎并非所有都实现ANSI标准,需要数据开发人员根据不同引擎编写不同的SQL脚本,这无疑增加了数据分析人员开发成本,同时系统对于新的分析引擎难以扩展。针对上述问题与挑战,本文重点面向大数据批流一体平台流批数据统一处理、数据统一查询分析场景,基于Kafka、Flink、Hive、Elasticsearch等大数据组件,完成了基于Kappa架构的批流一体大数据平台的研究与实现,主要研究内容有以下三项:1)提出并实现了一种Flink引擎节点动态扩展的策略算法,在计算节点出现数据热点的情况下,动态扩展计算节点来适应数据的洪峰。根据一致性哈希的思想,对计算节点构建虚拟分区,解决Flink引擎在出现数据倾斜时无法动态扩展节点的问题,同时避免人工的方式增加并行度带来数据不一致的风险。2)设计并实现了声明式统一查询分析工具,为业务开发人员提供统一的编程方式。开发人员进行数据查询分析时,仅仅需要提交特定规则的JSON格式文本,统一查询分析工具会解析文本,最终路山到不同的分析引擎中执行查询任务,减少了开发人员学习各种分析引擎的学习成本。3)设计并实现了基于Kappa架构的批流一体大数据平台,实现了元数据层、计算引擎层、数据存储层、查询分析层的统一,解决开发人员在开发批流任务或者查询分析数据场景时开发难度大以及学习成本高的问题。最后,该平台应用于国家重点研发计划项目“大数据征信及智能评估技术”,在征信业务背景下搭建了集数据存储、数据处理、数据查询一体化的大数据平台,验证了本文的理论方法和平台的有效性以及实用价值。
其他文献
本研究旨在对生菜(Lactuca sativa L.)bHLH转录因子进行全基因组鉴定与系统分析,以期为生菜bHLH家族基因的生物学功能的研究提供理论基础。通过Pfam下载b HLH结构域的隐马氏模型,利用HMMER3.0和SMART鉴定生菜bHLH基因。使用ExPASy ProtParam tool、DNAMAN 5.0、ClustalX和MEGA 7.0等软件对bHLH的蛋白序列进行生物信息学
期刊
课程思政是落实立德树人根本任务的有力措施和重要突破口。在“互联网+”的时代背景下,高校教师应主动将课程思政融入在线及课堂教学,利用线上教学平台的优势和资源,助力思政教育贯穿线上线下课程中。文章就人体寄生虫学以线上线下混合式教学模式进行课程思政的策略进行了探讨,并通过实例介绍了基于混合式教学开展课程思政的设计和具体实施。
期刊
近年来,随着抗生素的滥用,环境中出现了抗生素的长期持续污染。过硫酸盐氧化是一种高级氧化技术,通过产生具有较强氧化性的硫酸根自由基,对污水、土壤中的污染物具有极强氧化能力,能有效降解环境中的抗生素。本文以过硫酸盐的活化技术为主要研究目标,介绍了热活化、过渡金属活化、光活化(UV)、电活化(EC)、碳活化(BC)等方式活化过硫酸盐的高级氧化技术降解抗生素的最新研究进展,对比分析了不同活化方式的优缺点,
期刊
副鸡禽杆菌(Avibacterium paragallinarum, Apg) 是鸡传染性鼻炎的病原菌,可以引起鸡只鼻腔分泌黏液性物质、打喷嚏、眶下窦肿胀、面部水肿和结膜炎等临床症状。导致病鸡生长不良,产蛋率急剧下降,从而危害养禽生产。Apg的致病性受多种因素影响,包括荚膜、脂多糖等细胞壁结构成分和菌体分泌的功能性蛋白如血凝素和金属蛋白酶等。本文从生物被膜及组分、细菌分泌物、铁离子获取和利用等方面
期刊
山东某免疫鸡传染性鼻炎(A型)灭活疫苗的蛋鸡场,在疫苗保护期内发生疑似鸡传染性鼻炎感染。通过对患病鸡进行剖检、细菌分离、PCR鉴定和血清型鉴定,结合HMTp210基因Region 2序列测序并分析,最终确定引起该蛋鸡场发病的病原是C型副鸡禽杆菌。
期刊
报纸
本研究旨在探讨低聚木糖(xylooligosaccharides,XOS)对慢性腹泻的改善作用。基于随机平行对照实验原则,将临床慢性腹泻患者随机分为3组:安慰剂组(CK组,每天3 g麦芽糊精)、低剂量组(3X组,每天3 g XOS)和高剂量组(6X组,每天6 g XOS);干预4周后,记录患者腹泻症状评分,测定患者血清生化指标、粪便中短链脂肪酸和肠道菌群的变化。随后用3组干预后患者粪菌液分别灌胃3
期刊
以5G、区块链、云计算、人工智能等现代信息技术为代表的科技创新开创了全球各产业向数字化转型发展的新阶段。如何在未来的数字经济背景下构建新型的社会治理体系,提升综合治理能力是对中国当前的一项大型的检验。社会信用体系的建设与数字经济的互相融合,互相促进是必然的趋势,在新时代的浪潮冲击下平衡维护数据主体权益与征信行业创新可持续发展的利益具有极大的研究价值。要深入研究个人信用信息的保护制度,首先必须要打好
学位
生长调节因子互作因子GIF (GRF-Interacting Factor)是植物中一类转录共激活因子,可以与生长调节因子(Growth-Regulating Factor, GRF)形成功能复合体,在植物生长发育等过程中发挥重要作用。生菜是重要的叶用蔬菜,叶片的生长发育直接影响到生菜的品质及产量。生菜中GIF基因家族的特性及生物学功能至今尚未有研究报导。基于生菜全基因组序列数据和生物信息学方法,
期刊
电商交易环境中,信誉评价问题一直是电商消费行业的重点关注问题之一,而电商信誉评价体系一直是辨别电商信誉的重要手段之一。传统的电商交易评价体系是在某个中心化的服务器上进行数据的存储和传输,由于该体系对中心化服务器过度依赖,攻击者只需要对中心化的服务器进行攻击,就能够造成系统交易数据的泄露和信誉数据的篡改。同时,在电商交易过程中,数据的传输速度依赖于服务器,如果服务器发生故障就会导致数据更新的延迟。因
学位