论文部分内容阅读
信息技术与科学研究的交互融合引发了科学数据的迅猛增长,促成了数据密集型科学发现的科研范式。数据不仅仅只是科研活动的产出,已成为科研创新的基本生产资料和基础保障,高质量的可循证评议的研究数据已经成为保证科研结果可验证、可分享、可重现的基础手段。
数据出版(Data Publishing或者Data Publication)是基于同行评议的数据发表机制,是数据传播共享的重要方式之一。但是,目前数据出版中的科学数据同行评议还存在很多不足,主要沿用传统的论文评审方式,大多停留在对数据文档简单参数的人工评议。
随着科学数据的重要性越来越高、科学数据开放共享需求越来越多,科学数据本身的“质量”内涵不断深入,而且面临着科学数据在内容、格式、管理、共享等方面不断增长的复杂性,如何根据科学数据可获取性、可理解性、可评议性和可重用性的要求来系统界定数据质量的内涵,如何利用逻辑自洽、系统化和相对一致的指标体系与流程进行客观可靠的、同时又是高效可操作的同行评议,已经成为数据出版中的瓶颈问题。解决这个问题对于理解科学数据的质量内涵,对于保障科学数据评议的客观可靠性和高效可操作性,对于促进科学数据管理、数据共享、乃至溯源促进科学研究质量提升,都具有重要的理论与实践意义。同时,由于数据出版的快速发展,解决这个问题的紧迫性日益凸显。
基于以上分析,本文首先将科学数据评议置于科研环境下的科学数据管理框架下,从可靠的科学研究及其科学数据管理要求和科学数据开放共享要求的角度,建立起科学数据的多维度质量视角,并结合对国内外数据出版机制及其数据质量评议体系的归纳总结和专家调研意见,提出了符合科学研究环境下科学数据管理和科学数据共享要求的系统化的数据质量概念,并在此基础上提出了相应的数据评议框架、指标体系、各维度指标集成计算方法和评议操作方法,最后进行了结合数据出版平台的计算机辅助同行评议的实验。
主要开展了以下四个方面的研究,提出了相应的研究成果。
(1)分析数据出版三种主要机制,总结数据评议主要内容、特点及挑战
本文选取了国内外科学数据存储库、国内外主要科技出版商、代表性学术研究期刊和专门数据期刊进行了系统的调研。对作为数据文档存储发布、作为学术论文辅助数据文档发布、作为专门数据论文发表的三种机制进行了分析,重点分析了不同数据出版模式中数据同行评议的内容及特点,以及数据同行评议中的影响因素、时机选择、工具、流程等问题,揭示了存在的主要问题。
(2)提出基于科学数据质量管理上下文信息的数据质量评议模型
从科研活动对数据质量的需求和科学数据开放共享的要求出发,基于科学数据可获取、可理解、可评议和可重用的要求,扩展了对科学数据的多维度质量要求,也从数据质量评议本身的可测度、可验证、可溯源和可促进数据管理的要求出发,分析了数据生命周期不同阶段(获取、加工处理、存储和发布)对数据质量的影响因素及控制要素。基于科学数据管理信息,对数据质量要素进行设计,并对数据出版中数据质量评议方法进行映射与梳理,构建了基于科学数据管理上下文信息的多阶段数据质量评议框架,指导数据出版中的数据评议方法与指标设计。这样,基于科研过程(而不是仅着眼数据文档)来理解数据质量,基于能动促进科研管理和科学数据管理质量(而不是事后孤立地)来进行数据质量评议。
(3)基于数据多维度质量内在关系,提出数据质量评议的多级指标体系
根据前面建立的数据“可获取、可理解、可评议和可重用”的要求,根据数据质量评议本身的可测度、可验证、可溯源和可促进数据管理的要求,分别剖析了数据质量各个维度的内在参数、结构和关系,重点细化了数据质量评议模型及指标设计,提出了该模式下数据质量评议的三级指标体系以及相关指标的评判标准和方式,建立了逻辑顺畅的和客观可行的评议操作机制。
(4)实验数据同行评议的机器辅助判读及计算方法以支持高效评议
针对科学数据本身的复杂性和人工难读性,利用本研究建立的数据质量可测度、可验证、可溯源的机制,提出了计算机辅助同行评议的概念和流程。针对本研究提出的指标体系进行分类遴选,针对部分指标进行度量分析和计算,建立了DaQa计算机辅助同行评议功能模型和实验模块,自动读取数据质量元素及辅助质量判读方法,提高数据质量审读的可实施性和实施效率。实验结果表明,采用计算机辅助同行评议的方法基本可行。
数据出版(Data Publishing或者Data Publication)是基于同行评议的数据发表机制,是数据传播共享的重要方式之一。但是,目前数据出版中的科学数据同行评议还存在很多不足,主要沿用传统的论文评审方式,大多停留在对数据文档简单参数的人工评议。
随着科学数据的重要性越来越高、科学数据开放共享需求越来越多,科学数据本身的“质量”内涵不断深入,而且面临着科学数据在内容、格式、管理、共享等方面不断增长的复杂性,如何根据科学数据可获取性、可理解性、可评议性和可重用性的要求来系统界定数据质量的内涵,如何利用逻辑自洽、系统化和相对一致的指标体系与流程进行客观可靠的、同时又是高效可操作的同行评议,已经成为数据出版中的瓶颈问题。解决这个问题对于理解科学数据的质量内涵,对于保障科学数据评议的客观可靠性和高效可操作性,对于促进科学数据管理、数据共享、乃至溯源促进科学研究质量提升,都具有重要的理论与实践意义。同时,由于数据出版的快速发展,解决这个问题的紧迫性日益凸显。
基于以上分析,本文首先将科学数据评议置于科研环境下的科学数据管理框架下,从可靠的科学研究及其科学数据管理要求和科学数据开放共享要求的角度,建立起科学数据的多维度质量视角,并结合对国内外数据出版机制及其数据质量评议体系的归纳总结和专家调研意见,提出了符合科学研究环境下科学数据管理和科学数据共享要求的系统化的数据质量概念,并在此基础上提出了相应的数据评议框架、指标体系、各维度指标集成计算方法和评议操作方法,最后进行了结合数据出版平台的计算机辅助同行评议的实验。
主要开展了以下四个方面的研究,提出了相应的研究成果。
(1)分析数据出版三种主要机制,总结数据评议主要内容、特点及挑战
本文选取了国内外科学数据存储库、国内外主要科技出版商、代表性学术研究期刊和专门数据期刊进行了系统的调研。对作为数据文档存储发布、作为学术论文辅助数据文档发布、作为专门数据论文发表的三种机制进行了分析,重点分析了不同数据出版模式中数据同行评议的内容及特点,以及数据同行评议中的影响因素、时机选择、工具、流程等问题,揭示了存在的主要问题。
(2)提出基于科学数据质量管理上下文信息的数据质量评议模型
从科研活动对数据质量的需求和科学数据开放共享的要求出发,基于科学数据可获取、可理解、可评议和可重用的要求,扩展了对科学数据的多维度质量要求,也从数据质量评议本身的可测度、可验证、可溯源和可促进数据管理的要求出发,分析了数据生命周期不同阶段(获取、加工处理、存储和发布)对数据质量的影响因素及控制要素。基于科学数据管理信息,对数据质量要素进行设计,并对数据出版中数据质量评议方法进行映射与梳理,构建了基于科学数据管理上下文信息的多阶段数据质量评议框架,指导数据出版中的数据评议方法与指标设计。这样,基于科研过程(而不是仅着眼数据文档)来理解数据质量,基于能动促进科研管理和科学数据管理质量(而不是事后孤立地)来进行数据质量评议。
(3)基于数据多维度质量内在关系,提出数据质量评议的多级指标体系
根据前面建立的数据“可获取、可理解、可评议和可重用”的要求,根据数据质量评议本身的可测度、可验证、可溯源和可促进数据管理的要求,分别剖析了数据质量各个维度的内在参数、结构和关系,重点细化了数据质量评议模型及指标设计,提出了该模式下数据质量评议的三级指标体系以及相关指标的评判标准和方式,建立了逻辑顺畅的和客观可行的评议操作机制。
(4)实验数据同行评议的机器辅助判读及计算方法以支持高效评议
针对科学数据本身的复杂性和人工难读性,利用本研究建立的数据质量可测度、可验证、可溯源的机制,提出了计算机辅助同行评议的概念和流程。针对本研究提出的指标体系进行分类遴选,针对部分指标进行度量分析和计算,建立了DaQa计算机辅助同行评议功能模型和实验模块,自动读取数据质量元素及辅助质量判读方法,提高数据质量审读的可实施性和实施效率。实验结果表明,采用计算机辅助同行评议的方法基本可行。