论文部分内容阅读
当前,电子商务不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。新型的数据贮存和处理技术 — 数据仓库能完成各种复杂分析以支持商家的战略决策。“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。”数据仓库主要有三方面的作用:首先,数据仓库提供了支持企业级标准的报表和图表功能。其次,数据仓库支持多维分析。第三,数据仓库是数据挖掘技术的关键基础。设计一个企业的数据仓库是一项工程,必须以实际需求为导向,同时考虑到数据仓库的更新,这样,从长远的角度来看,随着企业的发展,数据仓库能不断支持战略决策。在商务智能中,正确的、全面的决策支持系统必须以高质量的数据、正确的信息为基准,也就是必须保证数据仓库中的数据的准确性(Accuracy):、 完整性(Integrity)、 一致性(Consistency)、 全面性(Completeness)。因此,数据预处理是必不可少的。目前各大数据库厂商如Microsoft、Oracle、IBM等公司均提供自己的数据预处理产品,能够有效地进行数据的各种转换处理,从而达到规范化数据的目的。其中Microsoft提供的数据转换系统(DTS)是一个功能强大的应用程序,能够将各种异构数据源的数据合理地合并在一起,然后将这些数据移入数据仓库与数据超市中。经过转换处理的数据,总体上可以达到规范化数据的目的,但不能发现数据集中潜在的异常记录及潜在的指向同一实体的重复记录。为了得到高质量的数据,支持正确、全面的企业战略决策,就必须探测出这些异常记录和重复记录。高维领域的异常探测是获得高质量数据不可缺少的一步。近来的算法利用相似性的概念根据异常与其他数据的关系来发现异常的。但是,在高维空间里,数据本身是稀疏的,相似的概念不能保证有意义性。事实上,根据相似的定义,高维数据的稀疏性暗示着每个点大体上都是一个好的异常点的。因此,对于高维数据来说,发现有意义的异常点将变得复杂并且不明显。为了探测数据集中潜在的异常记录,本文实现了高维空间上的异常探测算法,利用进化理论,通过分析各种属性组合后的数据分布情况,发现数据集中潜在的异常记录。在实现过程中,设定了选择率、交叉率、变异率。同时,对于费时<WP=52>的优化交叉算法进行了改进。在选取交叉个体上,有以下改进,当前的群体根据适应度可以分为好的个休集与较差的个休集,在一次交叉迭代过程中,保证好的个休只参与一次,并且是与从较差的个休集中随机选取的个体进行交叉。两个个体交叉时,保证交叉后的个体能够总有一个更加接近目标解,如不能满足此要求,则要放弃此次交叉,恢复原个体,重新选择个体组合进行交叉。本文的另一改进是对变异算法进行了优化。设定变异后概率,选择最差个体进行变异,并且必须保证变异后得到的个体更加接近目标解,否则放弃本次变异,恢复原来个体。重新选择新的次差个体进行变异。经过选择、交叉、变异一次迭代后得到的新的群体,更加接近目标解。对于数据集成来说,消除重复记录是一个关键性的操作,在这项任务中主要面临的挑战就是:设计一个函数能够在数据不一致性的情况下,分离出指向同一实体的记录。本文提出一种新的分类器方法:利用交互式Active learning方法发现全面的、最有价值的训练集,训练分类器,从而构建精确的消除重复记录的函数。 Active learning方法利用相似的理念来从未作标记的实例中选择实例加上标记,与一般学习的利用静态训练集不同,主动学习主动地选择能提供最高信息增益的实例加上标记,加以训练。实现关键点在于:基于随机参数法同时构建若干个分类器,并利用它们在数据集中来发现最高信息增益的实例。考虑到从多个数据源集成数据时,出现的种种输入错误 ,本文在设计相似度函数上,对文本字符串,从读音、拼写以及词语统计分析上选取评估记录间的相似程度的函数。在读音上采用了Soundex方法,能评估单词读音相似程度,可以有效地检测到可能是同一实体的Derrick和Derick这样的重复记录。在拼写上采用了Edit Distance 方法,可以评估两个单词在写法上的相似程度。在词语统计分析上采用了Ngrams,可以判定由若干单词组成的一句话的相似程度,如两句话中的各个词语的先后次序略有不同,或两句话中只有一个或两个单词不同,但单词含义是相同的,表达了同一个意思,由Ngrams方法得到的两句话的相似度后,判断这样的实体是同一的。如Mexico Oaxaca Tlaxiaco 2433 Bailey Road 与 Tlaxiaco 2433 Bailey Way Mexico Oaxaca。算法的改进在于当最终发现的重复记录仍有误差,用户不满意的时候,可以把不满意的重复记录重新选出,加入到训练集中,重新开始训练。但是最初的训练集在一定程度上会影响算法的执行效率。本文实现的主动学习算法方法新颖,采用Active learning来发现有挑战性、有意义的训练集,能够满足交互式的响应,快速收敛,高准确性。最后,系统输出的消除重复记录的函数,应用在整个数据集时,易解释、高效评测。基于现实数据的实验表明:主动学习达到一定的精确度,所需要的训练集的个?