数据出版中的数据质量评议机制及其实践研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:youngpansy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术与科学研究的交互融合引发了科学数据的迅猛增长,促成了数据密集型科学发现的科研范式。数据不仅仅只是科研活动的产出,已成为科研创新的基本生产资料和基础保障,高质量的可循证评议的研究数据已经成为保证科研结果可验证、可分享、可重现的基础手段。
  数据出版(Data Publishing或者Data Publication)是基于同行评议的数据发表机制,是数据传播共享的重要方式之一。但是,目前数据出版中的科学数据同行评议还存在很多不足,主要沿用传统的论文评审方式,大多停留在对数据文档简单参数的人工评议。
  随着科学数据的重要性越来越高、科学数据开放共享需求越来越多,科学数据本身的“质量”内涵不断深入,而且面临着科学数据在内容、格式、管理、共享等方面不断增长的复杂性,如何根据科学数据可获取性、可理解性、可评议性和可重用性的要求来系统界定数据质量的内涵,如何利用逻辑自洽、系统化和相对一致的指标体系与流程进行客观可靠的、同时又是高效可操作的同行评议,已经成为数据出版中的瓶颈问题。解决这个问题对于理解科学数据的质量内涵,对于保障科学数据评议的客观可靠性和高效可操作性,对于促进科学数据管理、数据共享、乃至溯源促进科学研究质量提升,都具有重要的理论与实践意义。同时,由于数据出版的快速发展,解决这个问题的紧迫性日益凸显。
  基于以上分析,本文首先将科学数据评议置于科研环境下的科学数据管理框架下,从可靠的科学研究及其科学数据管理要求和科学数据开放共享要求的角度,建立起科学数据的多维度质量视角,并结合对国内外数据出版机制及其数据质量评议体系的归纳总结和专家调研意见,提出了符合科学研究环境下科学数据管理和科学数据共享要求的系统化的数据质量概念,并在此基础上提出了相应的数据评议框架、指标体系、各维度指标集成计算方法和评议操作方法,最后进行了结合数据出版平台的计算机辅助同行评议的实验。
  主要开展了以下四个方面的研究,提出了相应的研究成果。
  (1)分析数据出版三种主要机制,总结数据评议主要内容、特点及挑战
  本文选取了国内外科学数据存储库、国内外主要科技出版商、代表性学术研究期刊和专门数据期刊进行了系统的调研。对作为数据文档存储发布、作为学术论文辅助数据文档发布、作为专门数据论文发表的三种机制进行了分析,重点分析了不同数据出版模式中数据同行评议的内容及特点,以及数据同行评议中的影响因素、时机选择、工具、流程等问题,揭示了存在的主要问题。
  (2)提出基于科学数据质量管理上下文信息的数据质量评议模型
  从科研活动对数据质量的需求和科学数据开放共享的要求出发,基于科学数据可获取、可理解、可评议和可重用的要求,扩展了对科学数据的多维度质量要求,也从数据质量评议本身的可测度、可验证、可溯源和可促进数据管理的要求出发,分析了数据生命周期不同阶段(获取、加工处理、存储和发布)对数据质量的影响因素及控制要素。基于科学数据管理信息,对数据质量要素进行设计,并对数据出版中数据质量评议方法进行映射与梳理,构建了基于科学数据管理上下文信息的多阶段数据质量评议框架,指导数据出版中的数据评议方法与指标设计。这样,基于科研过程(而不是仅着眼数据文档)来理解数据质量,基于能动促进科研管理和科学数据管理质量(而不是事后孤立地)来进行数据质量评议。
  (3)基于数据多维度质量内在关系,提出数据质量评议的多级指标体系
  根据前面建立的数据“可获取、可理解、可评议和可重用”的要求,根据数据质量评议本身的可测度、可验证、可溯源和可促进数据管理的要求,分别剖析了数据质量各个维度的内在参数、结构和关系,重点细化了数据质量评议模型及指标设计,提出了该模式下数据质量评议的三级指标体系以及相关指标的评判标准和方式,建立了逻辑顺畅的和客观可行的评议操作机制。
  (4)实验数据同行评议的机器辅助判读及计算方法以支持高效评议
  针对科学数据本身的复杂性和人工难读性,利用本研究建立的数据质量可测度、可验证、可溯源的机制,提出了计算机辅助同行评议的概念和流程。针对本研究提出的指标体系进行分类遴选,针对部分指标进行度量分析和计算,建立了DaQa计算机辅助同行评议功能模型和实验模块,自动读取数据质量元素及辅助质量判读方法,提高数据质量审读的可实施性和实施效率。实验结果表明,采用计算机辅助同行评议的方法基本可行。
其他文献
糖尿病肾病(Diabetic nephropathy,DN)是糖尿病的主要微血管病变之一,也是导致终末期肾病(End stage renal disease,ESRD)的主要原因。统计显示近年来DN的患病人数不断增加,给社会和个人带来沉重的经济负担。糖尿病肾病的发病机制复杂,目前临床上的治疗方案,并不能有效干预DN的进程,减少其引起的ESRD。研究表明遗传因素、血流动力学改变、糖脂代谢紊乱、氧化应
[研究背景]  流行病学研究表明病程缓慢且持续发展的帕金森病(Parkinsons Disease,PD)是仅次于AD次常见的神经变性疾病。PD的典型病理包括中脑黑质(substantia nigra,SN)中的DA神经元异常凋亡及纹状体(striatum,STR)中的DA缺乏,同时,在神经元的胞质中出现由α-突触核蛋白(α-synuclein,α-SYN)聚集所构成的路易小体(Lewy body
学位
学位
为研究心脏M受体及其功能,进一步为心脏疾病的防治提供新的方法,本实验分别以结扎大鼠左冠状动脉前降支(LDA)造成的急性心肌缺血模型和外源性HO诱导大鼠培养心肌细胞损伤模型为基础,在不同水平探讨了激动M受体对心肌细胞损伤的保护作用及作用机制.方法 分别以结扎大鼠左冠状动脉前降支(LDA)急性心肌缺血模型和HO诱导大鼠培养心肌细胞损伤模型为基础,给予M受体激动剂胆碱和M受体阻断剂4DAMP进行干预,观
学位
该研究的内容是用基因工程的方法生产重组水蛭素(recombinant hirudin-2,rHV)的突变体,主要分为三部分.第一部分是高密度培养重组毕赤酵母Pichia pastoris GS115/HV,并使用甲醇诱导其表达水蛭素分泌至胞外,经SDS-PAGE和抗凝血酶活力实验分别检测目的蛋白表达量和活性.培养46小时后用甲醇诱导rHV表达,诱导36h后发酵液抗凝血酶活力达到6000ATU/ml
该论文在理论探讨的基础上,进行了大量的调查工作,结合具体案例对问题点进行了剖析,进而提出了具体的应用方案.论文研究的最终目的是通过对网络经济环境下客户关系管理来增强企业的核心竞争力提供现实的指导.由于当前现实情况所限,理论上的研究不可能深入到实践中的方方面面,因而存在着实践分析不全面的缺陷;另外,客户关系管理理论还在不断的完善,并且需要大量的计算机信息科技的支持,目前中国企业还不能达到此种程度,这
提要本文从激励与激励机制理论入手,运用实地研究、典型调查等方式,以及实地考察、请教专家、查阅资料、座谈、比较等研究方法,将我国公务员激励机制的总体概况与新疆公务员激励机制现状进行比较,结合新疆维吾尔自治区区情和公务员队伍现状,论述了构建新疆维吾尔自治区公务员激励机制的必要性,总结出目前新疆政府激励机制中存在的物质、考核、晋升、竞争、培训激励不足、精神激励方式落后,正、负激励不到位等突出问题以及问题
学位
邓之诚(1887-1960)是近现代著名学者,他以史学研究闻名于世,而他在文献学领域取得的成就,丰富而全面,亦是一位当之无愧的文献学家。本文通过对邓之诚生平及著述的全面考察,从他的藏书、题跋、版本学、目录学、文献整理与刊布、历史编纂学、史料学、文史考证等方面切入,综合探讨他的文献学思想、实践方法和治学成就。  邓之诚既深受中国传统学术浸染,又有新式教育背景,在治学过程中,强调史料文献的基础作用,讲
学位
领域知识结构的构建是一种跟踪领域研究进展,对领域知识进行体系化组织的重要形式和手段。在当前科研学术交流的范式向数字学术和开放科学加速转变的趋势下,科学数据、科学工作流、科学软件、实验视频、研究报告等非正式知识成果、以及各种正式及非正式知识产出的关联融合形成的各类新型复合学术对象,其学术价值和地位不断得到提升;不仅如此,关于学者、学术机构、科研项目、学术媒体等科研学术信息也日益成为支持科研活动开展的
研究前沿(Research Front)通常被认作是某时期内最具发展潜力的新兴研究领域或研究主题。作为科研资助部门、科研管理人员和科研主体重点关注的情报信息,情报学领域针对研究前沿的相关研究一直热度不减,其中基于共被引方法聚类获得的研究前沿也催生了具有广泛社会影响力的研究前沿情报分析产品,如ESI研究前沿等。然而,采用这种共被引方法遴选出的研究前沿和核心论文必须在施引文献达到一定数量时才会被监测聚
学位