基于规则的有效数据清洗算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:burningDNA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界面临着指数级增长的大数据,而现实世界的数据质量通常比较低,从而严重影响了数据分析挖掘结果的质量,带来了不可靠的结果。数据质量降低有多种原因,包括信息提取器的低效,信息产生不精确,以及不同数据源的异构数据表达方式等。由这些原因带来的脏数据,每年都使得各种机构和企业花费数十亿美元。数据清洗是解决数据质量问题的一种行之有效的方法,是数据有效使用过程中非常重要的一个步骤。数据清洗过程包含两步,即发现数据错误以及修复数据错误,以使数据与数据质量规则集一致。基于规则的数据清洗技术是数据清洗中的一类重要方法,在其中数据质量规则扮演着重要角色。数据质量规则集是一种声明式的用来确定有效的或正确的数据值的方法,一个违反则是不满足这些规则集的数据实例。数据质量规则应该能够发现比语法错误更复杂的语义错误,并且最好能够修正它们。基于规则的数据清洗方法一般受用户偏好,因为规则是可理解的,可以简便地修改和细化,且可以方便地增加领域知识。然而,用表达能力更强的语言来表示的数据质量规则更难被发现,且更难被自动地应用于数据清洗系统中。本文针对实体识别、错误检测和数据修复等数据清洗中的重要步骤提出三类规则挖掘算法。具体创新点如下。实体识别是数据清洗中的重要任务,用来检测描述同一现实世界实体的不同数据项。传统的方法使用相似度度量和聚类方法来发现某一实体的不同数据项,并且假设属于同一实体的数据记录之间的相似度比其他数据的相似度要大,然而这种假设并不对所有数据记录都成立。由于传统方法性能较差,最新的方法是对数据项中的属性建立规则。然而,这些方法使用的属性数不够,且忽略了共同属性和空属性值,于是影响了实体识别的质量。针对这个问题,本文定义了一个多属性带权重的规则系统(a multi-attributes weighted rule system,MAWR),它会检查所有的属性值来完成数据项到现实世界实体的映射。然后,本文提出了一种比较有效的基于此规则系统的规则产生算法,并且基于产生的规则,提出了一种实体识别算法(MAWR-ER),它能够有效且高效率地从数据集中发现实体。实际数据上的实验结果表明了本文提出的方法是快速有效的,并且比现存的实体识别方法有更强的鲁棒性。数据修复是数据清洗中的关键问题,用来修正数据中的错误。传统方法基于数据依赖来检查数据中的错误,但是这种方法不能改正错误发现错误值,并且更不幸地是它不能修正错误值。为了克服这种局限,当前方法定义了修复规则,并基于此来修复错误。然而,所有现存的数据修复规则都是由专家提供的,这需要大量的时间和精力。而且,基于规则的修复方法需要外部的验证过的数据或者人工验证,否则,这种方法就是不完整的,且只能修复一小部分错误。因而,本文定义了基于相似度匹配的带权重的匹配改正方法(WMRRs),来发现更多错误。在规则发现中不依靠人力或可靠外部数据源是现实的,因为人力资源成本较高,而可靠外部数据源并不总是可获得的。因此,本文提出了新的算法来从已有的脏数据中自动发现规则,还提出了自动发现规则不一致的算法,与现有的依靠专家知识来解决不一致性的方法有本质上的不同。然后,本文提出了基于规则的自动数据修复算法,它可以发现大量的错误并修复之。我们提出的方法能够全自动地执行可靠且正确的数据修复,且仅基于现有数据,不依靠主数据或人工验证。它能够在不损失修复的精确度的情况下获得更高的召回率。在真实数据和生成数据上的实验结果表明,本文提出的方法可以从现有的脏数据中发现有效的WMRR规则,且比现存的方法具有更高的精度。数据采样是一种主要的数据约简方法,它从整个数据中选出一个具有可行大小的代表性数据样本进行处理,这对于加快大数据分析非常有利。在数据修复环境中,已经提出了采样作为近似技术,可以通过权衡准确性和效率来从大型数据集中快速发现规则。带权重的匹配修复规则可以达到高精度的修复。然而,这种的方法需要扫描整个数据集来发现详细的数据修复规则集合,这对于交互式应用来说时间开销过大。针对大规模数据,本文提出了基于抽样的规则发现算法,用于发现近似的带权重的匹配修复规则。本文提出了抽样算法用于高效的抽取适于发现近似带权重匹配修复规则的高可用性样本,还提出了基于近似规则的数据修复框架,用于从样本中高效率地发现近似规则。然后,满足一致性的近似规则从整个数据中高效地检测并修复错误。因此,通过准确修复数据错误中可容忍的一部分,可靠且高效地完成部分数据修复。尽管本文提出的方法一定程度上牺牲了规则的完整性,但是保持了修复的正确性,并大幅度地提高了修复的效率。我们的方法依靠部分可靠的数据修复来降低错误的比例,由此能够处理现如今越来越大的数据集。综合实验结果验证了我们提出的方法的高效率,并证明了近似规则在数据修复方面的良好性能。
其他文献
针对海量工业大数据的多源异构性特征,提出一种基于优化深度置信网络的大数据清洗算法。在Hadoop框架下,利用曼哈顿距离描述高维空间内多源异构数据之间的关系,构建深度置信网络模型,基于隐含层中的RBM结构训练样本数据;同时,利用能量函数联合概率优化神经网络模型,实现数据属性的约简,并剔除冗余、错误及不完整的干扰数据。
期刊
轨道刚度检测是识别轨道弹性不良区段,评估轨道、桥梁和路基等结构动力性能的关键技术之一。为解决现有轨道弹性状态检测方法在检测效率与检测投入之间的不平衡,基于周期性动静态检测数据,本文提出基于动静态轨道几何不平顺差异的轨道弹性状态检测方法。此外,为解决弹性不良区段静态调整与有载不平顺不匹配问题,充分发挥动态检测数据的作用,提出基于动态数据的轨道弹性不良区段平顺性调整方法。通过刚度加载车试验和现场复核验
哈尔滨市马家沟小学始建于1925年,是一所历史悠久的学校。经过岁月的洗礼,学校积淀了深厚的文化底蕴,形成了优良的校风和光荣的传统。历任校长坚持以科学的管理塑造人,以生动的课堂发展人,以创新的活动凝聚人。近年来,以董光芹校长为核心的校领导班子顺应新时期学校内涵发展的需求,在全面分析学校发展优劣势的基础上,进行了科学系统的顶层设计,将学校特色发展的核心主题定位为"尊重教育",办学理念为"让生命因
期刊
目的通过对HP相关性萎缩性胃窦炎的随访观察,探讨根除Hp后慢性萎缩性胃窦炎的转归及胃黏膜肠化生逆转、发生、发展的影响,以便于进一步寻找理想的治疗方案,减少胃癌的发生率。方法 115例患者经胃镜定标活检取材,病理证实为慢性萎缩性胃窦炎或及肠上皮化生的患者,Hp检查采用快速尿素酶试验(RUT)和胃黏膜组织切片亚甲蓝染色镜检,对照组无特殊处理,治疗组行三联抗Hp治疗2周(埃索美拉唑片20mg q12h,
会议
作为近年来人类社会发展进程中出现的新的经济形态,数字经济通过运用各种信息技术,极大程度地推动了我国经济的发展。在人们越来越普遍关注数字经济发展的情况下,分析数字经济发展效率,探究显著影响数字经济发展效率的因素,对于提高数字经济发展质量,优化数字经济资源配置都有重要意义。针对上述问题,本文运用2014-2019年面板数据,围绕我国各地区数字经济发展效率进行研究,主要工作有:首先,通过梳理国内外对数字
随着我国高速公路网日益完善,与高速公路配套的服务区也日益壮大起来,不断增加的服务区数量使高速路服务区经营公司面临着管理瓶颈。为了加强并细化企业管理,各经营公司纷纷引入全面预算管理信息化理念。全面预算管理作为管理会计的重要组成部分,以其强大的成本控制、资源配置等功能,成为企业管理的有效途径,有助于企业从战略、业务、财务等各个方面综合管理企业,在管理会计体系建设中发挥着不可替代的作用。大多数经营公司试
一直以来,纪录片广受全球观众的喜爱,也引发很多学者对于纪录片的深入研究。随着中西文化的交流的深入,国外的纪录片不断流入国内,大量的纪录片字幕翻译也在各种媒体上出现。但是专门围绕纪录片字幕翻译的国内外研究还存在一定的局限性,因此还有很大的研究空间。本文以纪录片《小白鲸的呼唤》为翻译实践材料。第一章主要介绍了翻译项目的背景,包括翻译项目的来源,项目内容的简介,并介绍了翻译过程,分为译前,译中和译后。第
对于新时代高速发展的中国来说,历史是经验、教训、借鉴,是过去的沉淀,是未来的导向。在全球史中,罗马史有着举足轻重的地位,罗马帝国的兴衰与灭亡是令人瞩目的历史事件。此翻译报告所依据的翻译源文本节选自《罗马帝国衰亡史》,作者爱德华·吉本是英国杰出的历史学家。该书内容丰富详实,从不同的角度详细介绍了罗马帝国后期和拜占庭帝国时期的社会风貌和重大历史事件。历史类文本的主要功能是记录和传播历史信息。历史类文本
网络和电子设备的出现使人们的娱乐生活方式变得丰富多样,近年来除了电影和电视剧,许多优秀的综艺节目出现在大众的视野中,综艺行业也得到迅速发展。海外的综艺模式对国内综艺节目的制作产生了启发,不仅出现了制作优良的电视综艺节目,网络综艺在2014年之后大量涌现,用移动设备观看综艺节目的观众越来越多,视频网站中的点播量在衡量一部综艺节目是否成功以及受欢迎程度方面变得越来越重要。因此,对综艺节目点播量进行预测