【摘 要】
:
由于近年来包括科研数据在内的大数据爆炸性增长,因此大型数据组织正在寻求创建新的数据存储体系架构和可扩展的存储平台,以有效应对新的数据管理挑战。这些数据管理挑战主要是需要保证来自多种格式的各种来源的数据的可用性。数据规模的变化导致了新的数据分析和管理体系结构的出现。尤其以数据湖为代表的新一代中央数据存储库解决方案,作为一种通用的数据存储环境,几乎可以存储任何类型的数据。还允许分析师和科学家将最合适的
论文部分内容阅读
由于近年来包括科研数据在内的大数据爆炸性增长,因此大型数据组织正在寻求创建新的数据存储体系架构和可扩展的存储平台,以有效应对新的数据管理挑战。这些数据管理挑战主要是需要保证来自多种格式的各种来源的数据的可用性。数据规模的变化导致了新的数据分析和管理体系结构的出现。尤其以数据湖为代表的新一代中央数据存储库解决方案,作为一种通用的数据存储环境,几乎可以存储任何类型的数据。还允许分析师和科学家将最合适的分析引擎和工具应用于每个原始数据集。本文着重于探索称为“数据湖”的数据存储体系结构如何与科学数据管理相结合,提升科学数据存储库的服务质量。首先,本文介绍传统数据仓库在处理数据范式最新变化方面的局限性。我们评估了目前主流使用的科学数据存储平台的能力边界,和根据数据存储组织确定的数据生命周期,判断当前的科学数据存储服务能否覆盖完整的数据生命周期中的全部需求。同时,从数据湖发展的角度上,讨论并比较了可用于开发数据湖的不同开源和商业平台,以及数据湖各层级功能的目前最新研究进展。然后,参照着科学数据服务中真实存在的需求,从数据生命周期,数据发现和获取,数据处理与分析等角度,尝试为科学数据存储构建一个数据湖原型,该原型使用Hadoop数据平台(HDP)上的分布式文件系统(HDFS)与Elastic Search检索工具和Spark数据处理工具相结合,来描述科学数据的数据湖设计和实现方法,为这些科学数据的生命周期内存在的真实需求提供恰当的解决方案。最后利用软件平台和工具实现了一个包含示例数据的数据湖开发实例,用于数据流的抽取,展示和多层流分析。这项研究可以为计划实施针对特定实例的数据湖解决方案的科学数据存储库提供参考。
其他文献
当前云计算技术迅速发展,云数据中心的规模也在不断扩大,随之带来的是巨大的能源消耗。在此背景下云数据中心的能耗管理和优化成为数据中心管理的重要研究方向,而面向异构云服务器的功耗模型与功耗监控是数据中心能耗研究的基础。针对现有CPU功耗模型存在的准确性不足和没有充分考虑CPU异构性的问题,本文在x86和ARM两种不同的CPU架构上分别提出新的CPU功耗模型。在x86架构上,本文提出了一种新的幂指函数C
我国股市三十余年的发展历程中,多次出现股市泡沫现象,其中影响最为重大的是2008年和2015年的两次股灾事件,泡沫的破裂对中国股市和实体经济都造成了严重的冲击。由于股市泡沫的产生和破裂对股票市场的稳定产生的重大影响,学者们不断完善对这一市场异象的研究,以期对其内在形成机理形成更为全面的认识,从而更为有效地控制股市泡沫风险,增强股票市场稳定性。但基于传统金融学完全理性假设的有效市场假说无法对这一异象
中共十九大指出我国当前的社会主要矛盾已经发生变化。为满足人民对美好生活的追求,实现国家治理的目标,国家审计的力量需要发挥重要作用,国家治理发展要求提升审计质量,审计全覆盖的实现需要提高审计效率。国务院于2014年发布《国务院关于加强审计工作的意见》,要求对重大政策落实实现审计监督全覆盖,次年12月正式提出审计全覆盖理念。2018年5月中央审计委员会强调要让大数据技术成为国家审计拓展审计监督广度和深
随着城市的发展,大城市间人与物之间关系和依赖愈发增强,突发事件爆发的形式日渐多样,引起的连锁反应日趋激烈,且当前计算机技术快速发展,互联网中的信息已经可以被更多人获取,拥有了信息就相当于拥有了财富。如果说网络1.0的本质是“信息共享”,那么网络2.0的本质则是“信息共建”。在网络2.0时代下,网民既可以随意浏览获取各类消息,也可以发表自己的观点制造消息,这就完成了信息的共建共享。因此互联网逐渐成为
医疗科学和技术不断进步,使得我国人口的平均预期寿命不断提高,人口老龄化逐步显现,人们对于养老保障的要求空前提高,社会养老金的压力也大幅度地增加。并且,我国的养老保险制度体系还处于形成和发展初期,养老保险制度的“三大支柱”发展状况参差不齐,第一支柱基本养老保险,承担着对绝大多数人的养老责任,但其养老金替代率逐年下降,需要政府给予大量财政补贴,支付压力较大;第二支柱企业和职业年金,其投保人数的增速较慢
实际生活中收集到的数据往往具有不精确性、模糊性、稀疏性以及标签不足等质量问题,而这些将导致从数据中获取知识的不确性问题更加显著。软计算作为一种新兴的计算机技术,是一种能够较好的处理不确定性问题的方法。在算法模型中引入软计算,能为我们在处理近似模型或复杂度很高的现实问题时提供更好的解决方案,得到适应性和鲁棒性更高的结果。本文主要利用软计算的方法针对无标签数据和标签不足的数据展开研究。聚类分析是对无标
2020年经济工作的重中之重是维护经济稳定。稳定目标需要防范和化解重大风险,尤其是在新冠肺炎疫情突发状况下,积极防范风险是维护金融稳定的重要保障。中小企业是我国国民经济和社会发展的生力军,然而,中小企业的信用风险大、发展规模小等特点,使其面临的融资压力越来越大。银行金融机构融资、民间借贷市场融资、银行金融机构和民间借贷相结合的融资是中小企业融资的三种主要途径。银行借贷与民间借贷相辅相成,银行业的稳
石墨相氮化碳(g-C3N4)是一种有机半导体光催化剂,具有物化稳定性优良、原材料价格低廉和制备工艺简单等优点,并且其能级位置适用于多种光催化反应体系。目前大部分制备方法制得的g-C3N4的光催化性能表现仍不理想,因此我们采用形貌调控、构建金属氧化物半导体异质结和构建三元复合材料等方法对g-C3N4进行改性,以提高其光催化降解罗丹明B和光催化还原CO2的性能,并研究了其光催化性能提升的机理。本文具体
具有激发态分子内质子转移(ESIPT)性质的荧光分子具有斯托克位移大、光稳定性好等优势,已被广泛应用于生物医学研究。例如,基于2-(2-羟苯基)-苯并噻唑、水杨醛丫嗪等具有ESIPT性质的分子骨架,通过引入邻硝基苄基等“光笼”基团以及酶响应底物片段,已被用于光激活细胞成像和特异性检测生物酶活性。尽管具有ESIPT性质的荧光分子在生物成像和检测中获得了广泛应用,但基于具有ESIPT性质的分子骨架,同
随着素质教育的推进,青少年教育开始向德、智、体、美、劳的方向发展,青春期教育是必不可少的一门教学项目。西方发达国家,如美国、英国、德国等,都建立了成熟的青少年教育课程。由于几千年封建文化的影响,我国青少年教育和青少年教育科学体系建设明显落后,虽然初中《道德与法治》教材虽然承载了部分青少年教育内容,但随着改革开放,特别是近年来互联网技术的迅猛发展,青少年受到网络不良信息和视频的影响,早恋、早孕和性暴