【摘 要】
:
在Deep Web数据挖掘中,不同数据源之间往往会出现数据冲突,如何消解冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题。在数据源之间相互独立的理想情况下,如
论文部分内容阅读
在Deep Web数据挖掘中,不同数据源之间往往会出现数据冲突,如何消解冲突从而获得正确值(这一过程称为数据融合)是数据集成中的一个关键问题。在数据源之间相互独立的理想情况下,如果提供某个正确值的数据源数量多于提供其它错误值的数量,那么可以应用投票机制将大多数数据源提供的属性值作为正确值。然而Web技术使得数据源之间的拷贝变得容易,拷贝关系也变得很复杂。在一个top-k查询接口上融合数据时希望能够忽略这些拷贝的信息,给用户呈现高质量的数据。本文运用统计学方法分析不同数据源之间的依赖关系,将其引入注重效率的在线数据融合过程和数据集成框架中,以最小代价获得最大覆盖性、更精准的查询结果。本文工作包括以下三点:(1)提出检测一对数据源之间依赖关系的方法。该方法利用贝叶斯分析确定数据源之间的依赖性,设计出检测依赖性和融合数据的迭代算法,并通过考虑数据源准确度和属性值之间的相似性等条件扩展模型,有效地提高了数据融合的效果。(2)研究在一组数据源之间发现复杂拷贝关系的技术。首先,修正上述局部检测方法,提出一个可以插入不同类型拷贝证据的框架,并考虑不同数据项目上的拷贝相关性,以满足全局检测对拷贝方向的精确要求。其次,提出全局检测模型,消除协同拷贝、传递拷贝和多数据源拷贝等复杂拷贝关系,只返回具有直接拷贝关系的成对数据源。(3)引入依赖关系,构建在线数据融合系统。它从访问第一个数据源开始增量计算投票计数,返回答案及其置信度范围,在满足一定条件后终止。设计数据源排序算法,使得融合算法快速收敛并尽早返回高质量的答案。本文还对文中提出的方法和技术在真实数据集上进行了实验,结果表明本文技术是可行有效的。
其他文献
曹丕《典论·论文》是中国文学批评史上的第一篇文学专论。建安以前,文学作为经学的附庸,往往被人轻视。建安中,文学渐渐与人的个体生命价值相联系,成为人生之大事。《典论·
反面选择算法是行之有效的用于检测各种变化的方法。改进的这种算法成功用到了故障的精确诊断之中。在此基础上,引入经验值,对算法做进一步改进,使之既能对已经或正在发生的设备
高校技术成果直接转让给企业,是高校技术成果转化和产业化的主要模式之一。高校技术成果转让在合同签订过程中存在种种矛盾和猜疑,现实中也存在的恶意虚假转让的情况。从转让
文化的蕴涵十分丰富,所有的人类知识和行为无不体现其中,诸如生活方式、历史地理、宗教信仰、民族习俗、思维模式等等。具有不同文化背景的人们之间的跨文
Cultural implica
因研究湿式离合器接合特性的需要,通过分析无级变速器湿式离合器的机械结构,建立了湿式离合器机械传动的数学模型,运用建立的数学模型,研究了不同动态摩擦系数斜率对传递转矩
生物质能作为一种可再生能源,其大规模利用有可能满足各种能源需求,同时能减少CO2的排放。目前,生物质直接燃烧是生物质能应用最简单可行的直接利用,但长期以来,生物质直接燃
我国医院的发展在“新医改”中面临着新的机遇和挑战,在药品加价政策即将被药品理事服务费所取代,而政府物价部门制定的医院医疗服务项目收费价格标准与当前医院医疗服务项目成
本文以服装品牌发展为研究背景,通过对服装品牌中VI视觉识别应用研究,总结分析了VI视觉识别对于服装品牌发展过程中的重要意义。系统阐述了服装品牌中V工识别的功能与特性,结
目的本课题采用前瞻性随机对照试验,观察平衡针疗法中“肩痛穴”治疗肩周炎患者的临床疗效,并通过与常规温针疗法对比,评价本疗法的有效性及安全性。方法课题纳入70例肩周炎
随着社会经济的发展,家庭结构和功能的变化,结合家庭养老和机构养老优势产生的新型养老模式----社区养老,应运而生并蓬勃发展。而社区养老在实际操作过程也因受制于种种条件,如资