面向Deep Web数据集成的数据融合问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:leon7779
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的进步和发展,Web包含了越来越多的丰富信息,从而使Web成为了一个巨大的、分布广泛的、全球化的在线信息源。尤其是近些年来,各式各样的大型数据库逐渐建立起来,以应对各种个人或商业需求,Web已经逐渐成为人们生活中必不可少的一部分。Web上的数据杂乱无章,信息种类复杂多样,如果按照数据被访问的途径,可将整个Web分为Surface Web(浅层网络)和DeepWeb(深层网络)。其中,Surface Web是指Web中通过超链接可以被传统搜索引擎索引到的静态页面的集合;而Deep Web是指Web中可访问的在线数据库,其内容不能被传统的搜索引擎索引,而是隐藏在查询接口后面。通过研究表明,DeepWeb有数据量大、领域覆盖全面、主题性强、信息结构化程度高等特点。为了充分利用这些宝贵的资源,用于进一步的分析和挖掘,我们迫切的需要对Deep Web进行数据集成。在各个领域,Deep Web信息量呈爆炸式增长着,数据源的种类和信息的类型也越来越多样化。然而,这些信息是并不总是可信的,而且不同的数据源往往提供提供异构的、冲突的数据,如何从这些海量的信息中获得人们所真正需要的、正确的信息,成为信息集成所面临的一大挑战。因此,我们需要通过数据融合来去伪存真,获得高质量的数据,为分析决策提供支持。数据融合技术已经获得了越来越多的关注,许多研究工作者也在这一领域做出了很多的贡献。目前,数据融合工作仍然存在以下问题有待解决:(1) Deep Web上的数据源质量参差不齐,其提供的值的质量也差别很大,质量较高的数据源所提供的值的置信度往往更高。所以我们需要在数据融合之前首先对各个数据源进行质量评估,并将评估结果运用到真值发现的过程中去(2)目前还没有一个较为完善、标准的方法来进行数据融合,所以需要综合考虑数据源的准确度、数据源之间的依赖、值之间的牵连度等若干因素,来解决数据冲突,发现真值。本文以面向Deep Web的数据集成为目标,在Deep Web数据源质量评估和真值发现方法等方面做了很多的研究和探索,主要工作和贡献概括如下:1.本文提出了一种Deep Web数据源质量评估模型。Deep Web上各个数据源有很大的差异性,不同质量的数据源往往提供不同质量的数据。但是,目前大部分数据融合的研究并不专门对数据源进行质量评估,而是在计算之初给各个数据源质量赋相同的初值,并通过迭代算法不停的改进和完善数据源的质量。为了更好的进行数据融合,我们提出了一种在数据融合之前进行Deep Web数据源质量评估的方法,该方法将针对数据融合的特点,选取数据质量、接口页面质量和服务质量三个维度的多个因素作为评估标准,分别对各个质量评估因素进行量化,最后对各个数据源的质量进行统一评分,得到各个数据源的质量评估结果,并将评估结果运用到之后的数据融合中去。实验证明,我们的模型能够对数据源质量进行较为准确的评估,并且如果将得到的评估结果运用到数据融合过程中,可以对数据融合有明显的改进作用。2.本文提出了一种面向Deep Web数据集成的真值发现方法。在各个领域,Deep Web上的数据量激增,同时也存在着大量的冲突数据,所以如何从这些大量冲突数据中发现人们所需要的、正确的值变得至关重要。我们结合自己的研究背景(面向市场情报的数据集成),提出了一种面向Deep Web数据集成的数据融合计算模型。该模型综合考虑了数据源的准确度、数据源之间的依赖度、不同值之间的牵连度等因素,从冲突数据中找到真值。由于这几个因素之间是相互作用的,所以我们迭代的计算这几个因素,不停的改进这些因素的值,直到结果收敛。同时我们也将数据源质量评估的结果运用到我们的模型中来。通过实验数据证明,我们所提出的真值发现模型有效性更高。
其他文献
本文主要讨论最小邻居化问题和邻居最大化规则下Voronoi博弈形式的竞争选址问题。最小邻居化问题是指对平面中给定的n个点,选址放置k个新点使得在n+k个点的Voronoi图中,所有
实验教学是教学活动中的重要环节,有利于学生深刻理解理论知识、积极发挥主观能动性、进行科学研究与再创造,是从理论走向实践的桥梁,也是高校教学中不可或缺的重要组成环节。实
物联网技术成为近些年人们研究的热点,而作为物联网关键技术之一的无线传感器网络更是热点中的关键点。无线传感器网络是一种特殊的Ad-hoc网络,因此其除了具有Ad-hoc网络的一般
随着互联网技术的爆炸式发展,在线交易渐渐成为日常生活中越来越受重视的商品交换方式。确保参与者之间交易的公平性是保证电子支票,电子机票,电子合同签订等电子商务活动可
图是一种重要的数据结构,有着强大的信息表达能力,可以描述现实中诸多网络类型的问题。随着互联网中数据规模的增长,其形成的图结构越来越复杂,如何在大规模数据图中有效地进
可逆水印技术是指水印被提取之后,原始数据能够完全恢复,主要应用于对图像的完整性和真实性要求高的领域,如法律仲裁、医学、军事等。随着三维建模技术的发展,网格水印技术受
随着信息科技的飞速发展,在信用卡欺诈监测、网络流量监控和在线金融交易等场景中产生了大量的数据流。这些数据流中蕴含着大量有价值的信息,为了获取这些信息,人们开展了大
人脸检测技术在人们日常生活中越来越受到关注,特别是在学术研究、国防等领域,每年正以突飞猛进的速度发展壮大。人脸检测是一项综合了多学科、多领域、多层次的高新复合型技术
随着人们对安全问题的重视,监控系统变得无所不在。利用监控系统信息进行人的身份识别变得非常迫切。步态识别,即利用人走路的姿势进行身份识别,是一种新兴的生物特征识别技
近年来,大部分企业已经完成业务数据信息化,各企业都搭建了自己的数据存储系统来存放自身业务数据。企业兼并引起的数据库合并,跨数据库查询服务,数据集成等应用都依赖异构数