【摘 要】
:
数据集成就是把来自异构分布数据源的数据整合起来.因为相同对象在不同的数据源中可能会有不同的表示方法,即存在重复记录,所以数据集成理想的结果是相同的对象有唯一完整正
【机 构】
:
东南大学计算机科学与工程系,南京,210096
【出 处】
:
第二十三届中国数据库学术会议(NDBC2006)
论文部分内容阅读
数据集成就是把来自异构分布数据源的数据整合起来.因为相同对象在不同的数据源中可能会有不同的表示方法,即存在重复记录,所以数据集成理想的结果是相同的对象有唯一完整正确的表示.数据清洗是数据集成中一个重要的环节,是实现理想的数据集成结果的重要方法,其主要任务是清除来自不同数据源中的重复记录,保证一个对象在结果集中只有唯一的一个表示.
这个问题已经在关系型数据库中得到了广泛的研究.但是在今天,关系型的数据只是数据表示形式的一个很小的部分.而XML数据应用的越来越广泛,尤其是在数据发布和数据交互以及数据集成,数据挖掘等领域.与关系型数据相比,XML数据是一种层状的,半结构化数据,远比传统的关系型数据要复杂.
在本文中,提出了一种基于对象树相似匹配的XML重复对象监测模型,它包括对象分组,对象树的生成,检测以及聚类重复对象组成.此模型在SEU-ETL中得到了应用,实践证明,此模型很好地解决了XML对象在结构内容上给重复对象检测带来的各种问题.进一步提高模型的性能,实现候选对象的自动检测是未来尽一步努力的目标。
其他文献
家族性慢性肾小球肾炎在儿科较少见,不同于单纯的慢性肾炎,临床表现复杂,易被误诊或漏诊[1],现将慢性家族性肾小球肾炎合并肾小管酸中毒1例附病理报告报道如下.1临床资料患儿女
随着网络技术和信息技术的不断发展,越来越多的系统具有了数据收集和信息处理功能.在这些系统之间进行数据的映射和转换成为了一个经常要面对的问题.数据映射的需求是逐步复
骨质疏松由于无早期症状和常规的诊断方法,不易诊断,易出现严重并发症??骨折.所以,早期预测骨折危险度,筛选危险人群,进行早期预防、治疗很重要.作者用超声波法测量跟骨骨密
本文结合多元关系的多个因素综合考虑各副本场地,优化选择出从它们到查询结果场地之间的综合权重中最小的一个为根结点,生成一棵最小代价特殊二叉树,从而对多元联接查询的联
为了更好了解老龄妇女妇科疾病的特点,现将我科1995年5月~1997年5月间住院病人中70岁以上妇女所患妇科疾病特点做回顾性总结分析如下.1临床资料1.1一般资料我科从1995年5月~1
急性早幼粒细胞白血病(APL,M3)是一种特殊类型的急性髓性白血病.特点是出血倾向重,由此常导致患者早期死亡.尤其既往常规化疗死亡率甚高,治疗比较困难.自全反式维甲酸(ATRA)
我院自1988年9月~1995年9月应用选择性肾动脉灌注化疗加栓塞术后根治性肾癌切除术治疗肾肿瘤16例.1临床资料1.1一般资料本组肾肿瘤16例,男13例,女3例,年龄33~67岁.经B超、CT
协同创作系统(CAS)是CSCW的一个研究分支,目前在大纲式文档写作、互联网知识创作、多媒体创作等多个领域得到广泛研究和应用.CAS由于允许多个用户同时对同一作品进行编辑,为
外阴癌是常见的女性生殖系统恶性肿瘤,多发生于绝经期后.我院自1980~1996年收治外阴癌86例,随诊中发现20例复发.该文讨论其复发相关因素及复发后的治疗.1辽宁省海城市中心医
目的:检测位于人染色体3P14.2区的FHIT基因在肺鳞癌中的缺失率,探讨FHIT基因在国人肺鳞癌中的作用.方法:收集手术切除21例肺鳞癌及对应正常肺组织标本,应用RT-PCR及DNA测序技