基于关联数据的实体链接发现研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:alexiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术及网络技术的飞速发展,已有众多的数据集发布在网上。但针对真实世界存在的众多实体对象,已发布的数据集中包含有众多代表相同资源的类似数据,如果这些数据集中代表相同资源的实体以正确的链接进行关联,那么就可以实现用户仅需通过一个联合查询平台就可实现所有信息的查找,而不再需要针对某个数据集进行专门的查询。但在数据集间构建正确的实体链接是一项非常具有挑战性的任务,首先数据集本身包含的数据量非常庞大,同时数据结构也非常复杂,其次在进行相同资源发现时需要进行大量的匹配计算工作,同样为数据间的链接实现带来困难。随着关联数据应用的不断深入,越来越多的数据资源选择采用关联数据的形式进行发布,同时网络上的数据信息也被自动或半自动的转换为关联数据形式,所以研究关联数据环境下的实体链接发现将为以上问题的解决提供新的思路。但从实用角度来看目前已发布的关联数据集间仍只存在很少的关联,为数据的共享使用带来不便,所以通过关联数据集的实体链接发现工作,发现实体间的真实关联关系,依据关联数据发布标准构建实体链接,实现隐藏实体链接的发现,增强数据集间的资源互联程度,提高已发布的关联数据的精确度及准确度。为实现以上研究目标,本文提出一种基于统计学习方法进行关联数据集间的实体识别及链接构建的方法。在进行数据集间的实体匹配时,首先通过发现相似类来进行类中相关实体属性的聚合分类,对具有高相关度的属性进行匹配关系描述,降低实体匹配时的属性匹配计算次数;其次对已匹配的属性进行实体属性值的相似度比较计算,通过此方式进行实体间相似度的比较,并建立实体间的链接,以达到实体链接发现的目的。本文采用基于K中心点聚类算法来实现属性的聚合及关系发现,对聚合后的属性采用EDOAL语言定义及描述属性间的匹配关系,并依据此匹配关系进行实体属性相似度比较计算,在SILK框架下实现实体的链接构建工作。通过实验对上述方法进行了实验检验,实验结果表明,采用本文提出的方法能降低数据集间实体匹配计算次数,提高实体链接的正确率,所以本文提出的方法具有可行性及实用性。
其他文献
随着网络信息技术的不断发展,新的网络服务模式层出不穷,不断地推动着网络用户去充分体验新的网络信息服务。面对着当前的网络服务现状,传统的仅仅基于协同浏览的参考咨询系统已
对于运动员来说,个人身体素质的好坏对于运动项目的完成有着直接的影响作用.中长跑运动项目对于运动员个人身体的耐力、速度、力量等方面都有着较为严格的要求,处于青少年期
本文首先从场地与器材、师资、教材以及赛事四个方面分析了我国高校击剑运动发展存在的问题,针对问题提出了相应的解决策略.
太阳能是一种典型的可再生清洁型能源,在当前社会发展水平全面提升背景下,人们对资源、环境和社会可持续发展问题的关注程度不断提升,因此太阳能资源作为一种可再生资源也逐
新疆青少年运动员中长跑应以“短”促"长
《劳动合同法》颁布前后,有关劳务派遣的争论就没有停止过.不仅学者们对劳务派遣的规定多有讨论,社会各界乃至立法者也表达了观点.2012年12月28日,第十一届全国人民代表大会
The sediment content of the Yellow River is resulted from the interactions of natural, economic, and social factors, so it includes some evolutive information o
足球作为世界第一大球,在国际范围内具有较强的影响力.近年来,中国足球发展现状不容乐观,与国外足球强国之间的差距已经相当明显.为有效拉近这一差距,这需要我国探索出足球后
通过对部分国际摔跤队的观察来看,在具体的摔跤比赛中,抱提技术这则是最主要的得分项,也是判定是否能够获得胜利的重要因素.所以,抱提技术就成为了国际式摔跤中的重点,也成为
在创新驱动发展和促进区域协调发展的背景下,开展基于创新链的产业竞争力研究,具有重要的理论意义和现实意义。通过调研发现:首先,尚未有研究将创新链应用于产业竞争力分析研究