论文部分内容阅读
语义网作为目前网络的一种拓展形式,目的是建立机器可以理解和读懂的数据并且能够通过富含语义标注的数据来创建彼此之间的链接,使整个网络变为一个通用的信息交换媒介。关联数据为语义网的目标提供了一种可行的实践方案,但是随着关联数据网络上的数据集日趋增加,数据集之间链接的潜力并没有得到很好的发挥,究其原因主要是由于目前在关联数据网络上发布的各个数据集对相同实体类型进行描述时采用不同的本体词汇,造成了各个数据集在描述格式上难以达成一致,使得关联数据集之间的链接存在阻碍。因此为了发挥关联数据的最大价值,达到真正意义上的开放、智能和共享,就必须解决关联数据集间的映射问题。鉴于此,本文提出了关联数据集混合式映射,主要做了以下工作:(1)梳理和总结关联数据集映射问题及现有技术。首先较为详细的介绍了关联数据集的相关理论和技术,阐述了关联数据集的映射问题、互链现状和目前常用的映射技术及这些技术的效果。(2)提出了关联数据集混合式映射模型。对目前关联数据网络环境中数据集的词汇表使用状况、元数据描述状况、RDF链接状况等等进行了具体的分析,在此基础上,提出了关联数据集混合式映射模型并对混合式映射中各个层次功能及关系进行了详细说明。(3)阐述了关联数据集混合式映射策略。从基于VOID语言的关联数据集元数据描述、部署和描述发现等方面阐述该层面映射策略,对基于R2R语言的关联数据集映射创建和发布进行了详细介绍,最后引入WordNet语义词典进行语义相似度计算。(4)分析了关联数据集混合式映射实例。以DBpedia、Geonames和LinkedMDB这三个数据集为例,对其进行VOID描述,对它们之间的部分类和属性创建了R2R映射,对其中特定实例的语义相似度进行了计算,最后对映射效果进行了评价。本文希望通过采用混合式关联数据集映射来解决目前在数据集映射方面存在的部分问题,提高映射的效率及映射的精确度,为创建关联数据集成服务环境提供支持,同时这一研究成果也为目前关联数据集映射的研究提供了一个新思路,从而更好地促进关联数据网络的发展。