开放科学数据的通用元数据标准及应用研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:dengscc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在全球信息化大潮的推动下,越来越多的科研机构致力于开放科学和开放数据的实践工作。科学数据是科研工作中产生的重要资源,也是进行科研成果验证的重要材料。开放科学数据的有效管理可以促进科研水平的提升,进一步推进学术进步。许多国家已经把科学数据作为创新发展和提升国家整体经济能力的重要战略之一。越来越多的研究机构和政府部门通过开放数据平台发布科学数据,在这个过程中,对元数据的管理尤为重要。我国紧跟国际发展趋势,出台了相关的政策文件,以确保科学数据可以被有效管理和使用。目前,我国已建设了不少科学数据存储平台,但是对平台上元数据的管理情况并不理想,存在有未分配标识符、缺乏机器可读的格式以及元数据取值不规范等问题,也未能对平台上的数据集进行语义标注,这妨碍不同领域的开放数据平台上的科学数据的交换共享,也妨碍了社会公众对于科学数据集的搜索和使用。为此,本文的主要研究内容如下:(1)详细调研国外现有的开放科学元数据标准方案以及应用情况,重点对欧盟的多学科研究数据方案、美国的Dataverse、Dryad仓储元数据方案、DATS元数据方案的描述内容及方法进行详细介绍,总结国际上的科学数据元数据方案的发展趋势,提炼出可供我国参考的经验。(2)对我国的科学数据元数据标准及开放数据平台进行调研,发现其中存在的问题,参考元数据在国际上的发展趋势,设计本土化的科学数据通用元数据方案。基于本体模型设计适合我国开放数据平台的通用性科学数据元数据标准模型,并以RDF/XML编码格式进行序列化描述,以数据目录、数据集、数据资源、科学出版物为主要描述对象,对科学数据的元数据项进行详细描述,设计通用的元数据方案。(3)将设计好的元数据方案应用至我国的开放数据平台上,以机器可读的XML、JSON-LD格式对科学数据集进行实例描述,验证其可用性;基于本文设计的通用元数据方案,使用JSON-LD编码格式对开放数据平台上的科学数据集进行语义标注,并将其发布,使其能够被数据集搜索引擎搜索到。本文旨在构建一个本土化的通用型科学数据元数据标准方案,从而能够高效统一地解决我国在科学数据领域对数据进行管理的过程中出现的数据不集中和重复建设等问题,提高数据的可发现性、可获取性进而促进数据的重用,为我国的科学数据元数据标准建设工作提供参考。
其他文献
随着国际贸易规模的高速发展,物流的发展水平得到了较大提升,同时又更好的促进了世界经济的发展,而人们对物流服务的水平也有了给更高的要求。在该情况下,不少物流企业开始着手于构建全链条的物流服务体系,以期获得更大的规模效益、减少物流成本,为客户提供高满意度的运输服务。航运企业作为全球化的物流服务提供商,在世界贸易的货物运输中承担了绝大部分运力,积累了大量资产、运营经验和客户群。但是近年来市场波动、贸易摩
学位
大数据时代,数据开放可以促进公共服务质量的提升、推动经济创新,因此开放数据运动蓬勃发展。地理数据是开放数据的主要领域,在社会治理、经济发展、科学研究等领域都具有巨大的价值。统一的元数据标准是开放数据建设过程的核心内容之一。地理数据蕴含的丰富数据价值让地理数据的元数据得到了更多的重视。在我国,虽然一些地方政府已经发布了地方元数据标准,但是从总体上看,因为缺少统一的管理机制、标准和方法,所以数据的利用
学位
在互联网时代,人类生活方式的转变促进了外卖与快递行业的发展,尤其在新冠肺炎疫情的助推下,2020年中国外卖交易规模达3460亿元,快递交易规模达8750亿元,分别同比增长18.79%和16.7%。不断增长的线上交易量为外卖与快递的配送带来了极大的压力。外卖配送与快递配送都属于城市配送。外卖员的工作时间分配不均匀,工作量不饱和,这造成了很大的人力资源浪费。快递员工作量高度饱和,人力资源紧张。快递配送
学位
新冠疫情爆发和北极冰山融化的现象使我们重新考虑人类的生活方式对环境的影响,以及企业在生产活动中尽量减少和消除排放等方面的责任。随着港口船舶交通量的增加,大气污染物的排放量也不断增加,使港口周围地区的空气质量越来越差,对公众的健康产生了影响。航运已经成为仅次于机动车和工业生产的第三大空气污染来源,我国与国际海事组织(IMO)相继通过了有关条例(例如海事组织《防止污染公约》附件六)来处理船舶排放问题。
学位
在数字时代,数据是社会和商业活动的关键资源,其中大部分是由政府创建或持有。通过开放数据,政府可以帮助推动创造创新的商业和服务,提供社会和商业价值。开放数据不仅要求在各平台上发布大量的数据,同时要建立高效的数据管理方式,制定统一标准,聚合分散数据,消除数据孤岛,提高数据集的可发现性,从而降低数据用户发布和获取数据资源的成本,激活更多数据成果。目前,我国已上线140余个政府开放平台,基本涵盖我国大部分
学位
随着云计算、互联网、web2.0技术、电子商务等的急速发展使得网上信息资源呈指数式增长,导致的“信息过载”问题越来越严重。用户很难从海量信息中快速寻找到满足自己个性化的需求,企业面临的困扰是用户对提供的推荐服务是否满意。推荐系统常从用户、商品以及用户评分信息等方面挖掘内在关联,从而为用户和商品建立关联,为用户提供感兴趣的商品推荐列表。虽然传统的推荐系统在一定程度上缓解了“信息过载”问题,数据稀疏和
学位
网购消费者行为数据来源场景复杂多变,对网购消费者行为数据进行分析并标记网购消费者行为数据何时出现异常,然后利用其时间序列的规律性对标记的异常进行分类识别,一方面企业在分析网购消费者行为数据时可以避免因异常数据影响而做出错误决策,减少企业损失,另一方面异常数据可以用于研究信息系统,为系统的完善性提供可用信息。然而,由于网购消费者行为数据中的异常样本较少且含有多种类型,同时网购消费者行为数据的存储量庞
学位
在货物运输行业中,由于其货运业务需要货运企业与其他货运参与方之间的多方协同交互,货物的运输流程也需要货运各参与方共同签署合约来保障执行,这使得货运合约成为维系货运企业与货运各参与方之间的纽带。在传统的中心化背景下,货运合约多为集中式存储和管理模式,存在着合约数据可篡改、不可追溯等一系列安全问题,同时合约的执行也易受主客观等因素的影响,使其可信性得不到保障,进而造成货运企业与货运各参与方之间建立互信
学位
近年来交通拥堵现象日益严重,给人们的生活带来了极大不便,因此急需完备的技术和方法对交通进行管理和诱导。智能交通系统能通过融合网络技术、通讯技术等信息技术,全方位实现对车流动态信息的监控和管理,从而解决传统交通管理不及时和不科学等问题。交通流量作为数字化所需的重要参数,对其准确预测具有重要意义。为提高单一模型的预测精度,本文引入Stacking模型;为改善传统Stacking模型基学习器利用率低的缺
学位
外来海洋生物入侵给我国的公共健康、社会经济、生态系统等带来严重的威胁和损失。近年来,国家高度重视海洋生物安全问题,在党的十八大政府报告中首次提出了建设“海洋强国”和“海洋丝绸之路”的战略目标。2020年,党的十九大提出建设海洋强国、美丽中国的目标,报告中提出我国目前需着力解决海洋水污染、海洋生态环境破坏等海洋环境突出问题。《生物安全法》于2021年4月15日正式施行,要求我国相关部门加快建立健全生
学位