论文部分内容阅读
语义网力求解决数据信息的语义化描述问题,构建一个充满结构化、语义化、智能化数据信息的网络资源环境,以期能被计算机理解与自动化处理,实现人与计算机的交流。关联数据被认作是语义网的最佳实践,语义网实现的核心技术。它通过对实体的语义化描述,在数据之间构建语义关联链接,实现数据之间相互联系、相互关联,推动着关联数据网络的建设。关联数据的特性使其在知识发现领域体现出了无可比拟的优势和潜力。关联数据为知识发现提供了新技术和新的资源环境,知识发现为关联数据的发展提供了新的发展目标和研究方向,因此基于关联数据的知识发现成为了语义网领域的热点研究方向。随着关联数据技术的发展和广泛应用,关联数据呈现出爆发性增长的趋势,为避免出现信息过载的问题,提高从海量的关联数据资源中发现新颖有效的知识的效率,基于关联数据的知识发现研究中的语义相似度计算成为了一个重要的科研方向。本文针对此问题,进行了基于多粒度的关联数据语义相似度计算方法研究。本文首先分析了关联数据语义相似度计算的研究现状,对国内外提出的语义相似度计算方法进行归纳总结,分析了这些方法的计算思想、函数模型、适用性和优缺点。通过对关联数据的内容结构描述特征分析,提出了多粒度的关联数据信息描述模型,阐述了粗、中、细三种粒度的关联数据信息描述内容。在多粒度的关联数据信息描述模型的基础上,详细分析了关联数据语义相似度计算的影响因素,分别为:实体属性关系、属性取值类型、属性重要程度、实体间关联距离和实体间链接路径。然后提出了基于多粒度的关联数据语义相似度计算方法。在该方法中将关联数据语义相似度计算过程分为三个计算模块,分别为粗粒度描述模块、中粒度描述模块和细粒度描述模块,并针对每个模块的特点及内容提出了与之相应的语义相似度计算方法,根据语义相似度计算的不同目的,提出了面向关联数据实例对和面向相似关联数据集的语义相似度计算流程。最后,使用Linked Movie DataBase关联数据集对本文提出的方法进行实验验证,并对实验结果进行了分析,实验分析结果表明本文方法具有较好的适用性、准确性和稳定性。