面向多场景的大数据集成存储与治理系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xue852456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技服务业领域,构建科技咨询大数据服务平台,需要将跨应用(企业/产业、专利/文献、经济/资讯等)、异来源(网络爬虫、数据库、文件等)的多场景数据进行集成、治理、融合。在围绕该大数据平台建设过程中要解决以下问题:(1)平台需要爬取多个垂直领域的开放网页应用数据,目前的主流爬虫框架存在重复编码、不便管理的问题。(2)对多场景数据进行集成,现有的数据集成工具通用性差,无法统一数据集成流程,且在实时增量同步、数据完整性方面有待提高。(3)数据来源多种多样、质量参差不齐,且在网络、设备、存储等方面具有异构性,在明确数据含义、提升数据质量方面具有挑战性,从而阻碍了数据资产化的进程。为了解决建设科技咨询大数据平台中的上述问题,本论文围绕面向多场景的大数据集成存储与治理展开以下研究:(1)针对多网页应用的可定制爬虫的需求,设计实现了基于Kafka Connect与WebMagic的可定制的分布式网络爬虫子系统;(2)针对大数据下多个场景(网络爬虫、数据库、文件)的数据进行统一集成的需求,设计了面向多场景的统一数据集成子系统;(3)针对大数据下网络、设备、存储上具有异构特性的数据源进行统一治理需求,设计了统一数据治理子系统,实现了对异构数据源的统一接入,统一元数据获取、同步和管理,并实现基于Hive批处理系统的数据清洗和数据融合;此外系统还实现了一种基于图数据库的分类标签管理,对清洗后的数据进行标签关联。通过实验验证,爬虫子系统具有可定制性、易管理性,支持对不同网页应用的数据在无编码的情况下进行爬虫任务的定制和任务管理;数据集成子系统优化了数据集成的流程,具有通用性好、支持增量同步、数据完整性好等优点;数据治理子系统在明确业务含义和提升了数据质量方面有积极作用,促进了数据的资产化。本文实现的系统效果符合预期,具有良好的通用性和可扩展性,对多数据源场景下的大数据平台的构建有一定的借鉴意义。
其他文献
我国影子银行短时间内的激增对经济形成了巨大影响。在我国经济结构性改革进程中,影子银行监管法律制度需具有前瞻性,其不断完善是十分必要的。近年来,我国出台了大量法律规
我国航运水系发达,船撞事故的发生在近年日益频繁。而高铁线路的建设大量运用了桥梁,若船撞事件发生在高速铁路桥梁上,势必会威胁到桥上行车安全。因此,建立合理的车辆-桥梁动力相互作用模型,对船舶撞击作用下的车桥耦合动力响应进行正确评估是高速铁路桥梁设计的重要参照,开展船-车-桥耦合动力特性的研究具有非常重要的理论意义和实际价值。以往船桥碰撞的相关研究中很少考虑桩土相互作用,为了更加准确地评估船舶撞击对车
双有源全桥DC-DC变换器作为现代电力电子变压器的核心器件,具有功率密度高、体积小、效率高以及易于直插式连接和替换的特点,它在储能发电、电动汽车以及直流输电中有着广泛的应用,在未来的工业应用中有着美好的前景。本文主要研究了双有源全桥DC-DC变换器中开关管寄生参数对于系统输出效率的影响,并在此基础上进行了运行效率的优化实验。本文主要研究内容如下:(1)本文首先介绍了双有源全桥DC-DC变换器的工作
目的观察并评价自动弹力线套扎术联合消痔灵注射术治疗直肠前突的临床疗效,为临床上治疗直肠前突提供一种新的治疗方式。方法将符合纳入标准的90例重度直肠前突女性患者随机分为治疗组和观察组,治疗组30例患者采用自动弹力线套扎术联合消痔灵注射术,对照组A组30例患者采用Block术,对照组B组30例患者采用Block术联合消痔灵注射术,分别对三组患者手术住院情况、总有效率、术后并发症、术后1个月与3个月症状
目前,工业废水排放引起的水污染问题已引起全球关注。其中,造纸、皮革、纺织、塑料、化妆品和电镀工业等行业都会产生大量工业废水。这些工业废水中的主要污染物包括有机染料(特别是阴离子染料)和重金属离子如Cr(VI)和As(V)等,已有报道表明这些有机染料和重金属离子的出现会导致人类产生多种生理和心理疾病,如癌症、肿瘤、贫血和畸变等。所以,在废水排放前去除这些有害的染料和重金属离子就显得尤为重要。但现有的
脑胶质瘤是人类最常见的难治性原发性颅内肿瘤,其中多形性胶质母细胞瘤占总原发性脑胶质瘤的50%以上。尽管目前外科手术切除、放疗、化疗和生物疗法等综合治疗措施有很大的进
氧化石墨烯(Graphene Oxide,GO)作为石墨烯重要的衍生物,具备优异的机械性能及稳定的孔隙二维结构,在污水处理、海水淡化和能源化工领域极具潜力。目前,燃煤电站主要采用三联箱
水稻病害的监测与诊断对保证国家粮食安全具有重要意义,基于分子生物学的病害检测方法可实现病害的精准分析,但该方法成本高、效率低、需要专业技术人员操作,在农业生产中难以实现,而近年来光谱技术在病害检测中的应用,为水稻病害高通量、快速的检测提供了可能,本研究以东北粳稻纹枯病为研究对象,展开病害光谱响应特征分析、病害识别、病害等级划分、病害指数估测等方面的探讨,主要研究内容如下:(1)研究基于水稻叶片尺度
基因测序的意义是使人类从根本上认知疾病发生的原因,做到正确的治疗疾病、尽早的预防疾病。例如肿瘤和红斑狼疮等疾病都是和基因变异有关,如果能过通过测序技术知道变异点,对精准治疗,攻克难题有重大意义。第三代测序技术是Pac Bio公司的Single Molecule Real-Timesequencing technology(SMRT)技术和Oxford Nanopore Technologies(O
党的十九大作出实施乡村振兴战略重大决策部署,对于新时代“三农”工作意义重大。实施乡村振兴战略,必须破解人才瓶颈制约,要把人力资本开发放在首要位置。加快新型职业农民培育,提升农民素质,实现人力资本的积累是破解人才瓶颈制约的关键,这就需要通过文献研究法、访谈法、案例研究法,对乡村振兴背景下S省W市新型职业农民培育现状进行实证研究。基于政府角色理论、人力资本理论对新型职业农民培育存在的问题进行分析,在此