论文部分内容阅读
随着互联网技术的进步和发展,Web包含了越来越多的丰富信息,从而使Web成为了一个巨大的、分布广泛的、全球化的在线信息源。尤其是近些年来,各式各样的大型数据库逐渐建立起来,以应对各种个人或商业需求,Web已经逐渐成为人们生活中必不可少的一部分。Web上的数据杂乱无章,信息种类复杂多样,如果按照数据被访问的途径,可将整个Web分为Surface Web(浅层网络)和DeepWeb(深层网络)。其中,Surface Web是指Web中通过超链接可以被传统搜索引擎索引到的静态页面的集合;而Deep Web是指Web中可访问的在线数据库,其内容不能被传统的搜索引擎索引,而是隐藏在查询接口后面。通过研究表明,DeepWeb有数据量大、领域覆盖全面、主题性强、信息结构化程度高等特点。为了充分利用这些宝贵的资源,用于进一步的分析和挖掘,我们迫切的需要对Deep Web进行数据集成。在各个领域,Deep Web信息量呈爆炸式增长着,数据源的种类和信息的类型也越来越多样化。然而,这些信息是并不总是可信的,而且不同的数据源往往提供提供异构的、冲突的数据,如何从这些海量的信息中获得人们所真正需要的、正确的信息,成为信息集成所面临的一大挑战。因此,我们需要通过数据融合来去伪存真,获得高质量的数据,为分析决策提供支持。数据融合技术已经获得了越来越多的关注,许多研究工作者也在这一领域做出了很多的贡献。目前,数据融合工作仍然存在以下问题有待解决:(1) Deep Web上的数据源质量参差不齐,其提供的值的质量也差别很大,质量较高的数据源所提供的值的置信度往往更高。所以我们需要在数据融合之前首先对各个数据源进行质量评估,并将评估结果运用到真值发现的过程中去(2)目前还没有一个较为完善、标准的方法来进行数据融合,所以需要综合考虑数据源的准确度、数据源之间的依赖、值之间的牵连度等若干因素,来解决数据冲突,发现真值。本文以面向Deep Web的数据集成为目标,在Deep Web数据源质量评估和真值发现方法等方面做了很多的研究和探索,主要工作和贡献概括如下:1.本文提出了一种Deep Web数据源质量评估模型。Deep Web上各个数据源有很大的差异性,不同质量的数据源往往提供不同质量的数据。但是,目前大部分数据融合的研究并不专门对数据源进行质量评估,而是在计算之初给各个数据源质量赋相同的初值,并通过迭代算法不停的改进和完善数据源的质量。为了更好的进行数据融合,我们提出了一种在数据融合之前进行Deep Web数据源质量评估的方法,该方法将针对数据融合的特点,选取数据质量、接口页面质量和服务质量三个维度的多个因素作为评估标准,分别对各个质量评估因素进行量化,最后对各个数据源的质量进行统一评分,得到各个数据源的质量评估结果,并将评估结果运用到之后的数据融合中去。实验证明,我们的模型能够对数据源质量进行较为准确的评估,并且如果将得到的评估结果运用到数据融合过程中,可以对数据融合有明显的改进作用。2.本文提出了一种面向Deep Web数据集成的真值发现方法。在各个领域,Deep Web上的数据量激增,同时也存在着大量的冲突数据,所以如何从这些大量冲突数据中发现人们所需要的、正确的值变得至关重要。我们结合自己的研究背景(面向市场情报的数据集成),提出了一种面向Deep Web数据集成的数据融合计算模型。该模型综合考虑了数据源的准确度、数据源之间的依赖度、不同值之间的牵连度等因素,从冲突数据中找到真值。由于这几个因素之间是相互作用的,所以我们迭代的计算这几个因素,不停的改进这些因素的值,直到结果收敛。同时我们也将数据源质量评估的结果运用到我们的模型中来。通过实验数据证明,我们所提出的真值发现模型有效性更高。