论文部分内容阅读
近年来,数据挖掘技术被广泛地应用到各个行业领域中,已逐步成为当今计算机应用技术和理论研究中最热门的领域之一。在实际的数据挖掘过程中,因为真实数据经常出现缺失、冗余、不一致和噪声等问题,导致用于数据准备过程的时间大约超过整个过程的时间的一半(约占整个数据挖掘过程所需时间的60%),因而缺失数据的处理在数据预处理过程中是一个至关重要的问题。
分类规则挖掘是数据挖掘中的一个重要分支,它在商业、医学、军事、体育等众多领域都有非常广泛的应用,引起很多来白不同领域的学者们的关注和研究。目前,许多分类算法主要强调分类的准确率,并且基于所有错误分类的代价都是相等的这样一个假设,但是在很多实际的应用当中,不同类型的错误分类往往都对应着不同的代价,将所有的代价都视为平等的是不正确的。因而代价敏感的数据挖掘技术是数据挖掘领域中的一个重要的分支,也是较为前沿的研究领域。
以自然进化为基础的演化计算技术因为其智能性、并行性和不确定性等诸多特点而成为数据挖掘中的一个特殊的分支,是研究分类规则挖掘的一个重要工具。基因表达式编程(GEP)是一种新的遗传算法,它结合了遗传算法和遗传程序的优点,摒弃了它们的缺点,在数学建模方面取得了很好的效果,并且在许多工程领域的应用中都占有一席之地。
本文基于几种常用的缺失数据处理方法提出一种新的缺失数据处理方法,并以基因表达式编程和分类规则挖掘为主要的研究对象,研究了基于均匀常数分布的基因表达式编程分类算法(UDC-GEPDT)的代价敏感分类算法和基于差分演化算法的基因表达式编程决策树分类算法(UDC-GEPDT+DE)。本文的主要工作和成果如下:
1.分别简单介绍了基因表达式编程、分类规则挖掘、决策树和代价敏感的概念,并分析了它们的一些主要思想。
2.简要地介绍了几种常见的缺失数据处理方法,对每种方法的优缺点进行了详细的分析,并基于这些方法提出了一种混合缺失数据处理方法(MDMV)。用C4.5算法对每种方法处理过的数据集建模,经过测试,实验的结果证明本文所提出的混合缺失数据处理方法是一种有效的缺失数据处理方法,在后面章节实验中的缺失数据均以此方法为依据进行处理的。
3.对众多分类算法仅强调分类精度,而将所有错误分类的代价视为平等的不足之处进行分析,在均匀常数分布的基因表达式编程决策树算法的混合矩阵(Confusion Matrix)中引入代价矩阵,给出每种不同错误分类的不同代价,提出一种基于该算法的代价敏感分类算法,最后用实验证明了该算法在小数据集上能取得良好效果,并说明该算法在大数据集上的效果不佳,有待进一步改进。
4.分析指出了均匀常数分布基因表达式编程决策树分类算法(UDC-GEPDT)的不足,并将它与差分演化算法结合起来,提出了基于差分演化算法的基因表达式决策树分类算法(UDC-GEPDT+DE),实验证明了该方法在分类问题中能取得良好的效果。