海量数据关联发现框架及其关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:guoyuan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,当海量数据的存储不再是主要问题时,人们开始将目光转移到数据的集成、融合及语义上来。目前,无论是互联网数据、物联网数据还是本地数据,基本都是被孤立的、分散的存储在不同的介质上,但是这些数据之间是存在一定关系的,发现它们之间的关系能为人们提供全面、精准的信息。因此,如何发掘这些潜在的关联关系并为用户提供优质的服务是目前的主要研究热点之一。  关联数据的概念自2006年提出以来便得到了迅速发展,在关联数据的发展过程中,关联数据的互联是关联数据领域比较突出的问题。随着关联数据应用范围的不断扩大,对基于关联数据的检索也提出了新的需求,即如何能像目前的搜索引擎一样,为人们提供有序的检索结果。  随着科研水平的进步,基于异构的、跨学科的数据进行科学研究日趋普遍,促使海量异构数据融合研究成为一种趋势和必然。但是,目前还没有一个能够支持海量数据融合研究的框架。  现有的关联发现方法可分为三种类型:(1)、通过比较实例的属性值发现链接,但是实例的属性往往很多,比较全部属性值的代价太高。(2)、根据对应属性(correspondence attribute)比较实例,而对应属性是基于实例的本体匹配(ontology matching)找到的。但是在不同的数据集中,相同实例(the sameinstance)的对应属性值也可能不相等。(3)、利用遗传算法学习关联规则,但其时间复杂度较高。上述方法都存在一些难以克服的缺陷,而且它们都是基于结构化数据实现的,无法满足多种异构数据的互联。  关联数据的排序对于关联数据的检索意义重大,但是已有的关联数据排序方法都是静态的,而且,大多数排序方法只考虑了单个属性,无法完成动态多维的关联数据排序。  现有的关联发现框架基本都是集成了一些比较方法和聚合方法,未从算法上解决关联的问题,只能处理少量的结构化数据,无法满足海量异构数据的高效集成任务。  针对上述问题,本文设计一个高效的集成海量异构数据的关联发现框架,主要包括以下内容。(1)、面向关联数据的统一元数据描述方法;(2)、高效的关联发现方法;(3)、有效的关联数据排序方法。  面向关联数据的统一元数据描述方法将各种异构数据规范化。对于结构化数据,根据元数据描述方法将其属性值规范化;对于半结构化和非结构化数据则根据元数据描述方法对其进行描述,将描述信息存储为结构化数据。  关联发现是数据集成的关键,它的效率直接决定了海量数据集成的速度。因此,本文重点研究了能够提高关联发现正确率、计算速度以及自动化程度的方法。为了寻找两个数据集中的相同实例,需要比较实例的属性值。本文结合统计学习和机器学习方法,设计了一种自动的、高效的发现对应属性的方法EDAC。利用统计学习统计属性值特征,将属性转化为欧式空间中的坐标点,然后利用机器学习方法对坐标点聚类得到对应属性。由于EDAC发现的对应属性存在误差,根据潜在对应属性(potential attribute correspondence)建立的链接就需要鉴别,因此,基于标记链接(正面链接和负面链接)构建一个分类器,即关联模式(interlinkting pattern)来识别链接。用变型空间构建关联模式的时间复杂度较高,为了提高构建关联模式的速度,采用MapReduce方法对变型空间实现并行化,称并行的变型空间为PDCVS。利用关联模式产生链接,即实现了数据的集成。  在集成的关联数据平台上,为用户提供检索功能是非常必要的,而对检索结果的排序能带来良好的用户体验。基于关联数据的排序与传统排序方法不同,它要求具有动态多维性,本文引进多块索引技术实现动态多维的关联数据的排序。  实验验证了关联发现框架能够实现海量数据的高效集成。主要设计了两种实验,分别验证关联发现过程中的相关算法和关联发现框架集成海量数据的效率。OAEI和CKAN数据集上的实验说明了EDAC和PDCVS的高效性。青海湖数据的集成更好的验证了元数据描述方法的重要性、关联发现方法的高效性和关联数据排序的必要性,进一步验证了文章提出的关联发现框架的广泛适用性、多任务性和高扩展性。
其他文献
随着计算机网络和Internet的不断发展,系统遭受的入侵和攻击也越来越多。入侵检测作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,是整个网络安
随着计算机技术发展和网络的普及,电子政务近几年得到了深入广泛的发展,各级政府和政府各部门建立了相应的业务系统,收集了大量的信息资源。电子政务进程正从基础建设阶段进入到
为提高图像传感器的成像质量,满足对外部环境光线强弱的适应能力,随着工业技术和制造工艺的不断提高,高位宽数字图像正逐步替代经典的8位数字图像。本文的研究目的是将位宽分
基于通用PC硬件体系结构的层次式交换网络实验平台搭建成功,验证了层次式交换网络的可行性,相关网络协议和体系结构的正确性,然而,基于通用PC的实验平台,不能提供很好的数据吞吐速
随着因特网规模的迅速扩大,网络应用的不断增加和网络本身结构的不断变化,网络的行为变得越来越复杂。NOC负责中国科技网(CSTNET)的运行与管理,互联网接入服务,因此提供一个综合
跨尺度运动图像融合方法和信息融合算法,能对来源不同的多种信息有效作出取舍和决策,改善视觉效果和信息精确度,有助于空间合作的顺利进行。本文主要研究跨尺度运动图像融合,
现在空间地理数据越来越丰富,传统企业面临着如何利用这些数据为他们的生产工作中提供服务的问题,而互联网技术在如今社会快速地发展为有效地解决这个问题提供了最基本的技术支
随着网络的飞速发展,尤其是手机、可穿戴式设备等智能终端的迅速普及,用户对网络提出越来越高的要求。现有的网络架构面临着诸多的挑战,例如网络内容急剧增长,信息安全日益突
在中国信息化建设带动下,信息系统工程监理行业从无到有发展起来。软件项目监理是信息系统工程监理中最复杂、最困难的一个部分。关于软件项目监理过程及其支持工具的研究是目
因特网的发展使电子商务、电子政务得到了飞速发展,信息安全问题也逐渐突出。为了解决信息系统的安全问题,上世纪八十年代提出了公钥基础设施(PKI)的概念,依据PKI理论建立起来的
学位