面向科研项目生命周期的科学数据监护框架研究与试验

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shengaogao3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基于数据密集型计算的科研第四范式的兴起,科研的发现、知识的创新、集成与重用已更多依赖于科研过程中数据的有效管理与积累,因此科学数据监护的基础及重要作用凸显。在大科学项目日益重视科学数据管理的同时,众多“小科学”项目也频繁产生大量的、复杂的、不断变化的、动态处理的数据,却往往由于经费、人员有限,专业知识和技术能力不足,缺乏有效的数据组织、管理、长期保存和有序共享,因此建立适应于众多小科学项目的科学数据监护框架及工具的需求极为迫切。  调研发现,目前数据监护框架主要以科学数据知识库(Data Repositories,DR)为核心,关注重点集中在已产生的“结果”数据的存储和共享管理方面,没有真正在科研全过程的数据采集、汇集与归并、转换与提取、计算与分析、存储、交换或提交、共享等各个环节上进行规范、系统和可靠的管理,往往使得最后存缴到DR的数据集或者不准确不完整,或者缺乏关于数据内容及其采集或处理的过程、方法、参数及责任与权属机制的细致描述,极大影响了人们对科研数据及其产生过程完整性的理解和认识,使得科研数据难以准确理解与评价,无法溯源,权属模糊,不能有效支持科研成果的再现与验证,也难以可信赖地被重用。因此,如何有效在科研过程中组织、管理科学数据,更加便于科学数据的发现、获取、追溯、理解、验证和重用,成为当前科学数据监护研究中需要解决的突出问题,也成了保障科学研究可信度、可再现性和结果可用性的重要基础。为此,需要围绕科研全过程,形成一种面向科研项目生命周期的数据监护框架、规范体系与应用平台,需要系统化考虑数据的标准化组织、数据溯源、权益管理、数据共享、长期保存等深层次的数据管理关键问题。  基于以上分析,本文把以“科研项目生命周期”为核心的数据监护框架作为研究对象,提出了以数据管理计划(Data Management Plan,DMP)为核心驱动的数据监护模型及框架结构,并对该框架的规范体系、控制引擎及系统功能进行了重点细化研究设计,最后构建了“面向科研项目生命周期”的科学数据监护试验平台。  在框架整体构成研究方面,本文分析了科研项目生命周期的重点阶段,以及其对应的具体科研环节,并基于此进行了数据管理映射,抽象设计了对应的科学数据生命周期监护模型,细化了生命周期各阶段数据监护的重点要素,提出了以科学数据管理计划为核心驱动的数据监护模型;同时梳理模型各组成部分具体监护的内容及功能,对“科研项目生命周期”数据监护框架进行分层研究,重点细化各部分的具体结构、理顺各层次之间以及层次内部的相互管理关系。  在框架规范体系研究方面,本文重点分析了数据管理计划规范、数据组织管理规范、数据共享管理以及长期保存规范的具体范围及内容组成。重点对可驱动控制的数据管理计划、机器可读的DMP描述语言、多层次科研项目组织管理元数据、通用科学数据元数据、科学数据存储格式、科学数据引用、数据许可和数据长期保存等规范的内容构成进行了研究论述。  在框架控制引擎研究与系统功能设计方面,本文对DMP驱动框架中核心控制层-数据监护引擎的结构、原理及实现进行细化研究,并重点对框架中涉及到的系统规约控制功能,从时间、组织内容、用户/系统声明、功能控制等不同角度进行分析和研究,对数据溯源和权益管理两个重要的数据监护功能进行了研究设计。同时从系统整体设计角度,依据科研过程数据管理的角色分工及工作流程,分层次梳理各角色的具体功能及其相互关联,对系统主要应用场景和关键数据交换与访问接口进行细化分析设计。  最后本文通过设计实现的数据监护试验平台对整个科研项目生命周期数据监护框架的合理性、以及框架规范体系研究及系统功能设计的可行性和有效性进行了验证,同时验证了试验平台的可配置性和可扩展性。框架体系及平台功能专家评价调查验证表明,以DMP为核心驱动的科学数据监护框架体系及平台的设计可以满足科研项目生命周期数据监护的需求,达到了预期的研究目标。
其他文献
分析《中国图书馆分类法》1-4版在原始宗教类目设置上存在的问题:类号设置缺乏逻辑性,类目设置简单,类目修订滞后。提出以原始宗教的特性和内容范畴作为原始宗教类目扩展列类
Web是网民获取网络信息的主要渠道,网民的Web使用行为从根本上挑战传统媒体中关于信息生产、传播和接受的某些基本假定。Web技术及其应用使得新闻的概念信息化,Web网络信息传播
根据定点定位试验结果 ,提出适用于华北平原现实经济、技术状况的农业节水实用措施 ;喷灌是一种低成本高效益的节水工程技术措施 ,秸秆覆盖和留茬可有效地进行农田界面调控 ;
主办者:中国图书馆学会资源建设委员会中国科技情报学会资源建设委员会承办者:中国科学院国家科学图书馆会议主题:新的信息环境下,图书馆联盟发展与共享合作一、征文(会议)内
体育赛事合同仲裁条款的范围常常不能有效涵盖体育侵权争议,并导致仲裁管辖和司法管辖的冲突.研究认为,可以采取的解决冲突的途径,一是尽可能约定一个涵盖范围比较宽泛的仲裁
知识产权与信息公共获取权都是公民的基本权利。知识产权是基于个人的智力创造性劳动成果依法所产生的权力,为权利人所独占或垄断,具有专有性、排他性,其最终目的是保障社会
期刊
浙江九龙山国家级自然保护区位于遂昌县西南部,是中国17个具有全球保护意义的生物多样性关键区域之一,是华东地区重要的生态屏障.九龙山的动植物种类十分丰富,分布着中国东部
期刊
从鸦片战争开始到五四爱国运动,岭南因其优越的地理位置和便利的交通条件,商品经济发达,对外交流频繁,学术思想活跃,目录学思想和书目工作实践亦走在了全国的前列。这一时期岭南目
电子政务,是指政府机构应用现代信息技术,在信息网络上实现政府组织结构和工作流程的优化重组,向社会公众提供高效的管理和服务。  理论界在研究电子政务时多从系统架构、技术