论文部分内容阅读
随着基于数据密集型计算的科研第四范式的兴起,科研的发现、知识的创新、集成与重用已更多依赖于科研过程中数据的有效管理与积累,因此科学数据监护的基础及重要作用凸显。在大科学项目日益重视科学数据管理的同时,众多“小科学”项目也频繁产生大量的、复杂的、不断变化的、动态处理的数据,却往往由于经费、人员有限,专业知识和技术能力不足,缺乏有效的数据组织、管理、长期保存和有序共享,因此建立适应于众多小科学项目的科学数据监护框架及工具的需求极为迫切。 调研发现,目前数据监护框架主要以科学数据知识库(Data Repositories,DR)为核心,关注重点集中在已产生的“结果”数据的存储和共享管理方面,没有真正在科研全过程的数据采集、汇集与归并、转换与提取、计算与分析、存储、交换或提交、共享等各个环节上进行规范、系统和可靠的管理,往往使得最后存缴到DR的数据集或者不准确不完整,或者缺乏关于数据内容及其采集或处理的过程、方法、参数及责任与权属机制的细致描述,极大影响了人们对科研数据及其产生过程完整性的理解和认识,使得科研数据难以准确理解与评价,无法溯源,权属模糊,不能有效支持科研成果的再现与验证,也难以可信赖地被重用。因此,如何有效在科研过程中组织、管理科学数据,更加便于科学数据的发现、获取、追溯、理解、验证和重用,成为当前科学数据监护研究中需要解决的突出问题,也成了保障科学研究可信度、可再现性和结果可用性的重要基础。为此,需要围绕科研全过程,形成一种面向科研项目生命周期的数据监护框架、规范体系与应用平台,需要系统化考虑数据的标准化组织、数据溯源、权益管理、数据共享、长期保存等深层次的数据管理关键问题。 基于以上分析,本文把以“科研项目生命周期”为核心的数据监护框架作为研究对象,提出了以数据管理计划(Data Management Plan,DMP)为核心驱动的数据监护模型及框架结构,并对该框架的规范体系、控制引擎及系统功能进行了重点细化研究设计,最后构建了“面向科研项目生命周期”的科学数据监护试验平台。 在框架整体构成研究方面,本文分析了科研项目生命周期的重点阶段,以及其对应的具体科研环节,并基于此进行了数据管理映射,抽象设计了对应的科学数据生命周期监护模型,细化了生命周期各阶段数据监护的重点要素,提出了以科学数据管理计划为核心驱动的数据监护模型;同时梳理模型各组成部分具体监护的内容及功能,对“科研项目生命周期”数据监护框架进行分层研究,重点细化各部分的具体结构、理顺各层次之间以及层次内部的相互管理关系。 在框架规范体系研究方面,本文重点分析了数据管理计划规范、数据组织管理规范、数据共享管理以及长期保存规范的具体范围及内容组成。重点对可驱动控制的数据管理计划、机器可读的DMP描述语言、多层次科研项目组织管理元数据、通用科学数据元数据、科学数据存储格式、科学数据引用、数据许可和数据长期保存等规范的内容构成进行了研究论述。 在框架控制引擎研究与系统功能设计方面,本文对DMP驱动框架中核心控制层-数据监护引擎的结构、原理及实现进行细化研究,并重点对框架中涉及到的系统规约控制功能,从时间、组织内容、用户/系统声明、功能控制等不同角度进行分析和研究,对数据溯源和权益管理两个重要的数据监护功能进行了研究设计。同时从系统整体设计角度,依据科研过程数据管理的角色分工及工作流程,分层次梳理各角色的具体功能及其相互关联,对系统主要应用场景和关键数据交换与访问接口进行细化分析设计。 最后本文通过设计实现的数据监护试验平台对整个科研项目生命周期数据监护框架的合理性、以及框架规范体系研究及系统功能设计的可行性和有效性进行了验证,同时验证了试验平台的可配置性和可扩展性。框架体系及平台功能专家评价调查验证表明,以DMP为核心驱动的科学数据监护框架体系及平台的设计可以满足科研项目生命周期数据监护的需求,达到了预期的研究目标。