论文部分内容阅读
信息时代,当海量数据的存储不再是主要问题时,人们开始将目光转移到数据的集成、融合及语义上来。目前,无论是互联网数据、物联网数据还是本地数据,基本都是被孤立的、分散的存储在不同的介质上,但是这些数据之间是存在一定关系的,发现它们之间的关系能为人们提供全面、精准的信息。因此,如何发掘这些潜在的关联关系并为用户提供优质的服务是目前的主要研究热点之一。 关联数据的概念自2006年提出以来便得到了迅速发展,在关联数据的发展过程中,关联数据的互联是关联数据领域比较突出的问题。随着关联数据应用范围的不断扩大,对基于关联数据的检索也提出了新的需求,即如何能像目前的搜索引擎一样,为人们提供有序的检索结果。 随着科研水平的进步,基于异构的、跨学科的数据进行科学研究日趋普遍,促使海量异构数据融合研究成为一种趋势和必然。但是,目前还没有一个能够支持海量数据融合研究的框架。 现有的关联发现方法可分为三种类型:(1)、通过比较实例的属性值发现链接,但是实例的属性往往很多,比较全部属性值的代价太高。(2)、根据对应属性(correspondence attribute)比较实例,而对应属性是基于实例的本体匹配(ontology matching)找到的。但是在不同的数据集中,相同实例(the sameinstance)的对应属性值也可能不相等。(3)、利用遗传算法学习关联规则,但其时间复杂度较高。上述方法都存在一些难以克服的缺陷,而且它们都是基于结构化数据实现的,无法满足多种异构数据的互联。 关联数据的排序对于关联数据的检索意义重大,但是已有的关联数据排序方法都是静态的,而且,大多数排序方法只考虑了单个属性,无法完成动态多维的关联数据排序。 现有的关联发现框架基本都是集成了一些比较方法和聚合方法,未从算法上解决关联的问题,只能处理少量的结构化数据,无法满足海量异构数据的高效集成任务。 针对上述问题,本文设计一个高效的集成海量异构数据的关联发现框架,主要包括以下内容。(1)、面向关联数据的统一元数据描述方法;(2)、高效的关联发现方法;(3)、有效的关联数据排序方法。 面向关联数据的统一元数据描述方法将各种异构数据规范化。对于结构化数据,根据元数据描述方法将其属性值规范化;对于半结构化和非结构化数据则根据元数据描述方法对其进行描述,将描述信息存储为结构化数据。 关联发现是数据集成的关键,它的效率直接决定了海量数据集成的速度。因此,本文重点研究了能够提高关联发现正确率、计算速度以及自动化程度的方法。为了寻找两个数据集中的相同实例,需要比较实例的属性值。本文结合统计学习和机器学习方法,设计了一种自动的、高效的发现对应属性的方法EDAC。利用统计学习统计属性值特征,将属性转化为欧式空间中的坐标点,然后利用机器学习方法对坐标点聚类得到对应属性。由于EDAC发现的对应属性存在误差,根据潜在对应属性(potential attribute correspondence)建立的链接就需要鉴别,因此,基于标记链接(正面链接和负面链接)构建一个分类器,即关联模式(interlinkting pattern)来识别链接。用变型空间构建关联模式的时间复杂度较高,为了提高构建关联模式的速度,采用MapReduce方法对变型空间实现并行化,称并行的变型空间为PDCVS。利用关联模式产生链接,即实现了数据的集成。 在集成的关联数据平台上,为用户提供检索功能是非常必要的,而对检索结果的排序能带来良好的用户体验。基于关联数据的排序与传统排序方法不同,它要求具有动态多维性,本文引进多块索引技术实现动态多维的关联数据的排序。 实验验证了关联发现框架能够实现海量数据的高效集成。主要设计了两种实验,分别验证关联发现过程中的相关算法和关联发现框架集成海量数据的效率。OAEI和CKAN数据集上的实验说明了EDAC和PDCVS的高效性。青海湖数据的集成更好的验证了元数据描述方法的重要性、关联发现方法的高效性和关联数据排序的必要性,进一步验证了文章提出的关联发现框架的广泛适用性、多任务性和高扩展性。