数据仓库中数据预处理的研究与算法实现

来源 :吉林大学 | 被引量 : 0次 | 上传用户:aassddff1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,电子商务不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。新型的数据贮存和处理技术 — 数据仓库能完成各种复杂分析以支持商家的战略决策。“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。”数据仓库主要有三方面的作用:首先,数据仓库提供了支持企业级标准的报表和图表功能。其次,数据仓库支持多维分析。第三,数据仓库是数据挖掘技术的关键基础。设计一个企业的数据仓库是一项工程,必须以实际需求为导向,同时考虑到数据仓库的更新,这样,从长远的角度来看,随着企业的发展,数据仓库能不断支持战略决策。在商务智能中,正确的、全面的决策支持系统必须以高质量的数据、正确的信息为基准,也就是必须保证数据仓库中的数据的准确性(Accuracy):、 完整性(Integrity)、 一致性(Consistency)、 全面性(Completeness)。因此,数据预处理是必不可少的。目前各大数据库厂商如Microsoft、Oracle、IBM等公司均提供自己的数据预处理产品,能够有效地进行数据的各种转换处理,从而达到规范化数据的目的。其中Microsoft提供的数据转换系统(DTS)是一个功能强大的应用程序,能够将各种异构数据源的数据合理地合并在一起,然后将这些数据移入数据仓库与数据超市中。经过转换处理的数据,总体上可以达到规范化数据的目的,但不能发现数据集中潜在的异常记录及潜在的指向同一实体的重复记录。为了得到高质量的数据,支持正确、全面的企业战略决策,就必须探测出这些异常记录和重复记录。高维领域的异常探测是获得高质量数据不可缺少的一步。近来的算法利用相似性的概念根据异常与其他数据的关系来发现异常的。但是,在高维空间里,数据本身是稀疏的,相似的概念不能保证有意义性。事实上,根据相似的定义,高维数据的稀疏性暗示着每个点大体上都是一个好的异常点的。因此,对于高维数据来说,发现有意义的异常点将变得复杂并且不明显。为了探测数据集中潜在的异常记录,本文实现了高维空间上的异常探测算法,利用进化理论,通过分析各种属性组合后的数据分布情况,发现数据集中潜在的异常记录。在实现过程中,设定了选择率、交叉率、变异率。同时,对于费时<WP=52>的优化交叉算法进行了改进。在选取交叉个体上,有以下改进,当前的群体根据适应度可以分为好的个休集与较差的个休集,在一次交叉迭代过程中,保证好的个休只参与一次,并且是与从较差的个休集中随机选取的个体进行交叉。两个个体交叉时,保证交叉后的个体能够总有一个更加接近目标解,如不能满足此要求,则要放弃此次交叉,恢复原个体,重新选择个体组合进行交叉。本文的另一改进是对变异算法进行了优化。设定变异后概率,选择最差个体进行变异,并且必须保证变异后得到的个体更加接近目标解,否则放弃本次变异,恢复原来个体。重新选择新的次差个体进行变异。经过选择、交叉、变异一次迭代后得到的新的群体,更加接近目标解。对于数据集成来说,消除重复记录是一个关键性的操作,在这项任务中主要面临的挑战就是:设计一个函数能够在数据不一致性的情况下,分离出指向同一实体的记录。本文提出一种新的分类器方法:利用交互式Active learning方法发现全面的、最有价值的训练集,训练分类器,从而构建精确的消除重复记录的函数。 Active learning方法利用相似的理念来从未作标记的实例中选择实例加上标记,与一般学习的利用静态训练集不同,主动学习主动地选择能提供最高信息增益的实例加上标记,加以训练。实现关键点在于:基于随机参数法同时构建若干个分类器,并利用它们在数据集中来发现最高信息增益的实例。考虑到从多个数据源集成数据时,出现的种种输入错误 ,本文在设计相似度函数上,对文本字符串,从读音、拼写以及词语统计分析上选取评估记录间的相似程度的函数。在读音上采用了Soundex方法,能评估单词读音相似程度,可以有效地检测到可能是同一实体的Derrick和Derick这样的重复记录。在拼写上采用了Edit Distance 方法,可以评估两个单词在写法上的相似程度。在词语统计分析上采用了Ngrams,可以判定由若干单词组成的一句话的相似程度,如两句话中的各个词语的先后次序略有不同,或两句话中只有一个或两个单词不同,但单词含义是相同的,表达了同一个意思,由Ngrams方法得到的两句话的相似度后,判断这样的实体是同一的。如Mexico Oaxaca Tlaxiaco 2433 Bailey Road 与 Tlaxiaco 2433 Bailey Way Mexico Oaxaca。算法的改进在于当最终发现的重复记录仍有误差,用户不满意的时候,可以把不满意的重复记录重新选出,加入到训练集中,重新开始训练。但是最初的训练集在一定程度上会影响算法的执行效率。本文实现的主动学习算法方法新颖,采用Active learning来发现有挑战性、有意义的训练集,能够满足交互式的响应,快速收敛,高准确性。最后,系统输出的消除重复记录的函数,应用在整个数据集时,易解释、高效评测。基于现实数据的实验表明:主动学习达到一定的精确度,所需要的训练集的个?
其他文献
随着互联网的飞速发展,网络中的 Web应用也呈现出急剧增长趋势,各类增值服务迫切要求为其提供基于利润收益的有竞争力的区分服务,而不应该再遵循传统的“尽力而为(best-effor
预测城市微小区电波传播特性(如路径损耗等)常采用的方法之一是射线跟踪法。本文提出了一种新的射线跟踪方法——“先二维,后三维”的射线跟踪方法。运用此方法不但能预测城市
作为计算机科学理论的一个重要分支,进程演算(也称为进程代数)在并发和交互式系统的建模和验证方面有广泛的应用。与此同时,新的应用场景(比如,多核处理器和无线网络等等)带来的挑战
计算机的安全已经是一个十分普遍和严重的问题,传统的计算机安全技术及人工响应已不能满足复杂系统的安全性要求,入侵检测系统已成为网络计算机系统中一个有效的防范检测手段
随着计算机及网络的飞速发展,当越来越多的公司及个人成为InteSrnet用户后,计算机网络安全作为一个无法回避的问题呈现在人们面前.用户传统上采用防火墙作为网络安全的第一道
随着移动通信技术和Internet技术的迅速发展以及网络信息资源的日益丰富,人们希望在任何时间、任何地点都能方便地访问Internet资源。移动IPv6是一种在全球因特网上提供移动
本文以国家863项目"上海构件库及其应用"(编号2002AA114010)为主要研究与应用背景,针对构件库中构件质量的相关工作展开研究,研究内容涉及到构件的分类描述、形式认定、质量
该文针对手写汉字识别的特点,以联机手写体汉字识别系统为测试平台,研究了多分类器融合技术的相关理论及其应用技术,包括多分类器融合的设计准则与应用、多分类器融合的体系
目前,软件Agent技术已被广泛应用于各个领域,尤其是在WWW网上信息检索、电子商务、网络管理等的应用。这对 Agent的适应性提出了更高的要求。适应性也是衡量这个软件系统是否
在数据库技术不断发展的今天,数据量也在不断膨胀,现有的串行数据库技术已经越来越无法适应数据增长的要求。因此,象众多其他领域一样,并行化成为提高数据库系统性能的必然手段。