关联型实体名称数据语义聚合研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:sz_ocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联型实体名称数据是采用关联数据的发布形式,表示各种实体命名性指称的数据,包括对应实体的主题和外部特征信息,蕴含着丰富的语义性和复杂的关联性,对研究数据挖掘和重塑知识体系具有重要的价值。当前,众多语义知识库对个人、机构、地点等实体数据的构建都是基于开放和关联的;在同一个知识库中,不同名称数据表征的实体之间拥有较强的相关性,它们潜在的关系往往不止是为用户展示的单一关联,而是更多的表征数据多维特征及数据价值,然而潜在关系的缺失严重影响了知识库的整体水平和数据质量;在不同知识库中,针对客观世界同一指向的实体对象在构建方法、表达形式、描述范围及揭示深度上表现出明显的区别,致使数据间的异构性强、共享程度难、数据利用率低,暴露出信息超载和信息污染等导致信息生态失衡的问题,加重了用户在网络环境下的认知负担。语义聚合成为解决上述问题的有效途径,既能动态关联和组织“知识碎片”,为发现新知识提供明确的方向和思路,又能消除多源异构数据的差异,重新形成有机的、紧密的数据聚合模式,以满足多元的知识需求和服务。本文分别基于同源数据和跨源数据对数据语义聚合问题进行了理论探讨和实证研究,主要围绕以下几个方面开展:(1)分析了目前几个典型知识库中实体名称数据的总体建设情况和差异问题,通过比较阐述了各自的优势和特征,为明晰语义聚合问题提供了现实需求。在此基础上明确了关联型实体名称数据内涵和特点,提出了关联型实体名称数据的通用关联模型。(2)通过归纳语义聚合的实现方法及应用场景,据此作为聚合研究的理论基础,探讨了本文选取的两个聚合依据,即利用数据的关联性实现同源数据聚合,利用数据的语义性实现跨数据源聚合,并据此设计了语义聚合整体框架。(3)基于因果链求解方法和关联规则技术,分别以民国四大家族人物数据集和诺贝尔文学奖作家数据集,实现了采用单一人物关系和多种实体关系的同源语义聚合实验;基于对GADES相似度测度方法及字符串编辑距离算法的改良,以源于Wikidata和YAGO的两组诺贝尔文学奖作家数据集为对象,实现了强调语义性的跨数据源匹配聚合实现,从而为以集群整体数据挖掘特征、建立关联、发现资源、消除数据的多源异构差异提供参考。
其他文献
风景园林建设,可以重塑城市生态平衡,对绿化建设和环境质量提升,具有较大的积极意义。文章针对风景园林设计中的人性化设计展开讨论,并提出合理化建议。
2005年9月教育部正式颁布实施了新的《普通高等学校学生管理规定》,其中对在校大学生结婚"开禁"成为一个热点问题,它是对在校大学生结婚权的法律认可,但同时在校大学生结婚存
<正>国库集中支付制度是财政体制改革及国库管理改革的重要内容,它对于政府宏观管理预算执行具有重要作用,充分适应了社会主义市场经济体制,目前这项制度执行已有十四年。本
<正>唐代初年,有一位名叫那提的印度僧人,游历了古印度各地和南亚、东南亚诸国之后,来到中国。看到唐朝的佛教盛况,那提说:"脂那东国(指中国),盛传大乘,佛法崇盛,瞻洲称最"。
动物病理剖检也称为尸体剖检,是基层兽医现场临床诊断的最常用的方法之一,更是兽医病理学的一种基本研究方法和技术,具有方便、快捷、客观、直接、准确等特点。通过尸体剖检不仅
我国养老保险制度的改革采取了渐进的部分积累制模式,制度自身具有激励机制。笔者基于成本收益的角度利用养老保险精算模型分析追求利益最大化的个人参加养老保险的策略,当收
本设计的目的是制作一个简易纸张计数显示装置,该装置以STM32单片机为核心处理器,以FDC2214作为电容感应传感器,利用两块铜制金属板作为纸张数量变化的感应器,辅以VGUS串口组
<正>1.CMIC:TVOS标准将出智能电视繁盛之期不远广电总局负责人透露,智能电视TVOS自主嵌入式操作系统已经完成审核,多数用户只知道智能电视如何高端大气,却未必了解智能电视操
在人们所接触的各大媒介中,广播电视有着无可替代的作用。在信息快速发展的今天,广播电视技术要为人们提供更加清晰、快捷的信息。阐述广播电视无线发射技术的优势,分析其存
随着社会不断进步,在推进城市化、工业化的进程中,人们越来越重视环境的保护,海绵城市就是基于此种情况下产生的一种新型城市发展方式。本文就海绵城市的概念,指出了保护生物