基于关联数据的实体链接发现研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：alexiss

【摘要】

：

随着信息技术及网络技术的飞速发展,已有众多的数据集发布在网上。但针对真实世界存在的众多实体对象,已发布的数据集中包含有众多代表相同资源的类似数据,如果这些数据集中

【作者】

：

周习曼

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2015年期

【关键词】

：

关联数据实体链接数据链接链接发现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术及网络技术的飞速发展,已有众多的数据集发布在网上。但针对真实世界存在的众多实体对象,已发布的数据集中包含有众多代表相同资源的类似数据,如果这些数据集中代表相同资源的实体以正确的链接进行关联,那么就可以实现用户仅需通过一个联合查询平台就可实现所有信息的查找,而不再需要针对某个数据集进行专门的查询。但在数据集间构建正确的实体链接是一项非常具有挑战性的任务,首先数据集本身包含的数据量非常庞大,同时数据结构也非常复杂,其次在进行相同资源发现时需要进行大量的匹配计算工作,同样为数据间的链接实现带来困难。随着关联数据应用的不断深入,越来越多的数据资源选择采用关联数据的形式进行发布,同时网络上的数据信息也被自动或半自动的转换为关联数据形式,所以研究关联数据环境下的实体链接发现将为以上问题的解决提供新的思路。但从实用角度来看目前已发布的关联数据集间仍只存在很少的关联,为数据的共享使用带来不便,所以通过关联数据集的实体链接发现工作,发现实体间的真实关联关系,依据关联数据发布标准构建实体链接,实现隐藏实体链接的发现,增强数据集间的资源互联程度,提高已发布的关联数据的精确度及准确度。为实现以上研究目标,本文提出一种基于统计学习方法进行关联数据集间的实体识别及链接构建的方法。在进行数据集间的实体匹配时,首先通过发现相似类来进行类中相关实体属性的聚合分类,对具有高相关度的属性进行匹配关系描述,降低实体匹配时的属性匹配计算次数;其次对已匹配的属性进行实体属性值的相似度比较计算,通过此方式进行实体间相似度的比较,并建立实体间的链接,以达到实体链接发现的目的。本文采用基于K中心点聚类算法来实现属性的聚合及关系发现,对聚合后的属性采用EDOAL语言定义及描述属性间的匹配关系,并依据此匹配关系进行实体属性相似度比较计算,在SILK框架下实现实体的链接构建工作。通过实验对上述方法进行了实验检验,实验结果表明,采用本文提出的方法能降低数据集间实体匹配计算次数,提高实体链接的正确率,所以本文提出的方法具有可行性及实用性。

其他文献

基于RIA的实时参考咨询系统的原型设计

随着网络信息技术的不断发展，新的网络服务模式层出不穷，不断地推动着网络用户去充分体验新的网络信息服务。面对着当前的网络服务现状，传统的仅仅基于协同浏览的参考咨询系统已

学位

参考咨询系统协同浏览网络服务数字图书馆RIA技术Ajax引擎

论大学中长跑运动员身体素质的培养与训练

对于运动员来说,个人身体素质的好坏对于运动项目的完成有着直接的影响作用.中长跑运动项目对于运动员个人身体的耐力、速度、力量等方面都有着较为严格的要求,处于青少年期

期刊

大学生中长跑运动员身体素质培养训练

我国高校击剑运动发展浅析

本文首先从场地与器材、师资、教材以及赛事四个方面分析了我国高校击剑运动发展存在的问题,针对问题提出了相应的解决策略.

期刊

击剑运动发展问题策略

光伏发电在观光旅游上的应用

太阳能是一种典型的可再生清洁型能源,在当前社会发展水平全面提升背景下,人们对资源、环境和社会可持续发展问题的关注程度不断提升,因此太阳能资源作为一种可再生资源也逐

期刊

光伏发电观光旅游应用

浅议新疆青少年中长跑训练方法

新疆青少年运动员中长跑应以“短”促"长

期刊

新疆青少年中长跑训练方法

《劳动合同法》研究之劳务派遣

《劳动合同法》颁布前后,有关劳务派遣的争论就没有停止过.不仅学者们对劳务派遣的规定多有讨论,社会各界乃至立法者也表达了观点.2012年12月28日,第十一届全国人民代表大会

期刊

劳动合同法劳务派遣全国人民代表大会常务委员会立法者学者条款会议颁布

黄河流域泥沙时序混沌特征——地理学综合研究的一种尝试

The sediment content of the Yellow River is resulted from the interactions of natural, economic, and social factors, so it includes some evolutive information o

期刊

dynamic system of the Yellow River Basinsediment time serieschaotic characters

顺依国情,兼容并蓄 ——国外足球强国后备人才培养路径我国后备人才培养的启示

足球作为世界第一大球,在国际范围内具有较强的影响力.近年来,中国足球发展现状不容乐观,与国外足球强国之间的差距已经相当明显.为有效拉近这一差距,这需要我国探索出足球后

期刊

足球运动后备人才培养启示

国际式摔跤抱提技术特点及与运用

通过对部分国际摔跤队的观察来看,在具体的摔跤比赛中,抱提技术这则是最主要的得分项,也是判定是否能够获得胜利的重要因素.所以,抱提技术就成为了国际式摔跤中的重点,也成为

期刊

国际摔跤抱提技术特点运用

基于创新链的区域产业竞争力分析方法研究

在创新驱动发展和促进区域协调发展的背景下，开展基于创新链的产业竞争力研究，具有重要的理论意义和现实意义。通过调研发现:首先，尚未有研究将创新链应用于产业竞争力分析研究

学位

区域经济产业竞争力评估指标创新链

基于关联数据的实体链接发现研究

与本文相关的学术论文