论文部分内容阅读
随着大数据时代的到来,各国政府相继提出本国的大数据发展战略,“开放政府数据”就是其中一项重要的举措。2013年G8共同签署的《开放数据宪章》中,“交通”被列为14个高价值开放领域之一,而航运作为交通领域最大的货运承载方式与空运和陆运相比更具优势,成为各国政府数据开放的重点。当前,我国的航运开放数据存在着开放程度低、多源异构和数据碎片化等问题。为进一步提升航运数据的开放程度、发掘航运数据的潜在价值、促进航运数据的有效利用,本文通过语义网技术构建航运关联开放数据并建立其基础上的数据语义聚合应用,具体内容如下:(1)对国外政府及交通领域数据开放的实践现状进行调研,在此基础上,立足于我国航运数据开放实践过程中的问题分析,确定采用由万维网创始者蒂姆·伯纳斯-李提出的“关联数据”作为提升我国航运数据开放水平的解决方案,即构建航运关联数据,明确了本文的工作内容和工作重点。(2)航运关联数据的构建离不开生命周期模型的支持,为此,在现有生命周期模型的基础上,提出本体驱动的生命周期模型,并对模型的设计思路、主要内容及整体优势进行介绍与分析。该模型不仅充分融合了本体对关联数据构建过程的语义导向性,更全面覆盖数据关联化和开放化所需的核心阶段和关键步骤,为航运关联数据的有序和有效构建提供了方法论指导。(3)为了配合航运关联数据的构建过程并解决航运原始数据的多源异构问题,引入了本体机制并构建了航运本体。在此过程中,遵循本体的可复用原则,通过借鉴本体设计模式的最佳实践实现了航运本体的规范性设计与构建,并给出其形式化编码、知识化组织及元数据描述的结果,充分发挥了本体特有的领域性、规范化、形式化、富语义和互操作等优势特性。(4)依据本体驱动的生命周期模型完成航运关联开放数据的构建与发布。除了实现关联数据5星评级模型推荐的步骤外,还通过“附加元数据”操作为数据集添加了自描述与溯源两类元数据信息,并参照DCAT标准开发了航运开放数据平台;提出并实现两种语义链接的构建方法,促进了链接构建向自动化和批量化的方向转变。从本质上讲,该过程是原始数据不断向关联数据转换进而向关联开放数据进阶的过程,较好地解决了航运数据的碎片化问题,为构建航运数据的高级语义应用奠定了坚实的基础;(5)以航运数据的语义聚合为应用场景,分别执行基于语义扩展、语义浏览和语义可视化的三种聚合操作,实现了航运数据在纵向深度、横向广度和规律显性化方面的聚合应用,体现了本体语义和关联链接在实现航运数据一站式获取与使用方面的优势,从实践的角度验证了航运关联数据构建结果的有效性其实际的应用价值。本文的研究工作为我国政府进一步推进航运数据开放的行动提供了一套切实可行的作法,也为其它领域的数据开放实践提供了一定的借鉴与参考。