论文部分内容阅读
随着信息技术及网络技术的飞速发展,已有众多的数据集发布在网上。但针对真实世界存在的众多实体对象,已发布的数据集中包含有众多代表相同资源的类似数据,如果这些数据集中代表相同资源的实体以正确的链接进行关联,那么就可以实现用户仅需通过一个联合查询平台就可实现所有信息的查找,而不再需要针对某个数据集进行专门的查询。但在数据集间构建正确的实体链接是一项非常具有挑战性的任务,首先数据集本身包含的数据量非常庞大,同时数据结构也非常复杂,其次在进行相同资源发现时需要进行大量的匹配计算工作,同样为数据间的链接实现带来困难。随着关联数据应用的不断深入,越来越多的数据资源选择采用关联数据的形式进行发布,同时网络上的数据信息也被自动或半自动的转换为关联数据形式,所以研究关联数据环境下的实体链接发现将为以上问题的解决提供新的思路。但从实用角度来看目前已发布的关联数据集间仍只存在很少的关联,为数据的共享使用带来不便,所以通过关联数据集的实体链接发现工作,发现实体间的真实关联关系,依据关联数据发布标准构建实体链接,实现隐藏实体链接的发现,增强数据集间的资源互联程度,提高已发布的关联数据的精确度及准确度。为实现以上研究目标,本文提出一种基于统计学习方法进行关联数据集间的实体识别及链接构建的方法。在进行数据集间的实体匹配时,首先通过发现相似类来进行类中相关实体属性的聚合分类,对具有高相关度的属性进行匹配关系描述,降低实体匹配时的属性匹配计算次数;其次对已匹配的属性进行实体属性值的相似度比较计算,通过此方式进行实体间相似度的比较,并建立实体间的链接,以达到实体链接发现的目的。本文采用基于K中心点聚类算法来实现属性的聚合及关系发现,对聚合后的属性采用EDOAL语言定义及描述属性间的匹配关系,并依据此匹配关系进行实体属性相似度比较计算,在SILK框架下实现实体的链接构建工作。通过实验对上述方法进行了实验检验,实验结果表明,采用本文提出的方法能降低数据集间实体匹配计算次数,提高实体链接的正确率,所以本文提出的方法具有可行性及实用性。