基于编辑规则和主数据的数据修复技术研究

来源 :东华大学 | 被引量 : 4次 | 上传用户:kygl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据质量管理已被公认为是数据管理系统的首要任务之一。针对数据质量管理领域的数据一致性和正确性,大量的完整性约束规则只能发现数据中的错误,基于这些约束的数据修复不能保证绝对的正确。论文分别从编辑规则挖掘和不一致数据修复两个方面,研究基于输入样本和主数据的编辑规则挖掘方法与基于编辑规则的不一致数据自动修复方法。在此基础上,以MyEclipse为实验平台,用java语言实现了相关算法,并将其应用到实际数据中。实验结果表明,这些方法应用于关系型数据库,能有效地挖掘出编辑规则,并正确地修复不一致数据。具体研究内容如下。研究了基于条件函数依赖挖掘的编辑规则挖掘技术。分析比较了现有的条件函数依赖挖掘算法CFDMiner、FastCFD和CTANE,对FastCFD算法中计算差集的过程进行了改进,并给出了CFDMiner和FastCFD的具体实现。通过扩展条件函数依赖,重新定义了编辑规则。针对主数据模式和样本数据模式不一致的情况,提出了从源数据到主数据一对一属性关系的挖掘方法。在此基础上,给出了编辑规则的挖掘算法,分析了算法的性能,并结合实例说明算法的执行过程。结合CFDs修复技术,研究了基于编辑规则的数据修复技术。首先分析了基于CFDs修复的相关技术,对相关算法给出了具体实现和理论证明。在此基础上,分析了编辑规则的一致性问题和覆盖问题,并证明了他们是NP-完全问题;为了实现确定的修复,基于图的理论,提出了从编辑规则和主数据中挖掘certain region结构的算法,从而实现了基于编辑规则和主数据的数据修复算法。基于CFDs的修复思想是对违反项用该项的等价类目标值进行修复,最终达到所有元组满足规则集的状态,这难以保证修复绝对的正确。而本文基于编辑规则的修复技术,充分利用干净的主数据,在修复前对元组在规则左边的属性值是否正确进行了校验,防止元组错误地应用于该规则,可以保证正确的修复。最后,通过实例说明了论文所提的算法确实能达到正确的修复结果。通过实验,以时间和规则数为评价指标,对比分析了基于不同CFDs挖掘技术的编辑规则挖掘算法的性能。实验结果表明,基于FastCFD的算法比基于CFDMiner的算法要更加耗时,但能挖掘出更多的规则。此外,还分析对比了基于CFDs的修复算法与基于编辑规则的修复算法。实验结果表明,两者运行时间相近,但从F-measure指标上看,基于编辑规则的修复效果要比基于CFDs的修复效果好,这证明了论文所研究的基于编辑规则数据修复的有效性。
其他文献
<正>最高人民法院民一庭庭长在《关于当前民事审判工作中的若干具体问题》中提到"要通过裁判弘扬良好的社会道德风尚",同时列举了广东省佛山市中级人民法院的一个判决。该案
白细胞介素-6(IL-6)是一种具有多种生物学效应的细胞因子。IL-6参与了冠状动脉粥样硬化的形成,是冠脉事件的预测因子,与心肌肥厚和心衰的进展相关。此外,IL-6与心脏粘液瘤和
我国西班牙语专业自1952年设立至今,经过了长足的发展和进步。作为世界第二大通用语言,西班牙语对社会文化发展具有十分重要的意义。本文从历史回顾、高校专业设置、师资力量
在研究无人机三维航迹规划问题时,针对基于传统人工蜂群算法易陷入局部最优值、后期收敛速度变慢、寻优效率低的问题,提出了一种改进人工蜂群算法的无人机航迹规划方法。首先
电视新闻编辑既是新闻节目稿件的审阅者,也是新闻节目的编导者,在整体的电视节目中举足轻重。新闻作为县级电视节目的重要组成部分,在当地人们生活中起着舆论引导的重要作用
提出了神经网络-Markov状态预测模型,采用误差修正的方法,对电力电量进行预测。我们采用1998年1月-2009年7月的数据对全国发电总量进行预测。结果表明:神经网络-Markov状态预
目的:探讨缺血性脑卒中(ICS)的危险因素对其发病的影响。方法:在哈尔滨市动力区>40岁的12 241人中,选择既往已确诊ICS的患者350例为卒中组,另随机抽取该地区经查体的40岁以上
借鉴于F119发动机外涵机匣的骨架式结构设计思想,提出了骨架式承力框架结构的设计技术研究并对骨架式中介机匣进行了初步研究。针对某型涡扇发动机的中介机匣结构建立了矩形
<正>高校后勤担负着为教学、科研与师生生活服务保障的职责,后勤工作虽不是学校的中心工作,但直接关系到学校的建设、发展和稳定。"兵马未动,粮草先行",每个高校的发展都离不