混合基因表达式编程决策树算法研究与应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:lcb225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘技术被广泛地应用到各个行业领域中,已逐步成为当今计算机应用技术和理论研究中最热门的领域之一。在实际的数据挖掘过程中,因为真实数据经常出现缺失、冗余、不一致和噪声等问题,导致用于数据准备过程的时间大约超过整个过程的时间的一半(约占整个数据挖掘过程所需时间的60%),因而缺失数据的处理在数据预处理过程中是一个至关重要的问题。   分类规则挖掘是数据挖掘中的一个重要分支,它在商业、医学、军事、体育等众多领域都有非常广泛的应用,引起很多来白不同领域的学者们的关注和研究。目前,许多分类算法主要强调分类的准确率,并且基于所有错误分类的代价都是相等的这样一个假设,但是在很多实际的应用当中,不同类型的错误分类往往都对应着不同的代价,将所有的代价都视为平等的是不正确的。因而代价敏感的数据挖掘技术是数据挖掘领域中的一个重要的分支,也是较为前沿的研究领域。   以自然进化为基础的演化计算技术因为其智能性、并行性和不确定性等诸多特点而成为数据挖掘中的一个特殊的分支,是研究分类规则挖掘的一个重要工具。基因表达式编程(GEP)是一种新的遗传算法,它结合了遗传算法和遗传程序的优点,摒弃了它们的缺点,在数学建模方面取得了很好的效果,并且在许多工程领域的应用中都占有一席之地。   本文基于几种常用的缺失数据处理方法提出一种新的缺失数据处理方法,并以基因表达式编程和分类规则挖掘为主要的研究对象,研究了基于均匀常数分布的基因表达式编程分类算法(UDC-GEPDT)的代价敏感分类算法和基于差分演化算法的基因表达式编程决策树分类算法(UDC-GEPDT+DE)。本文的主要工作和成果如下:   1.分别简单介绍了基因表达式编程、分类规则挖掘、决策树和代价敏感的概念,并分析了它们的一些主要思想。   2.简要地介绍了几种常见的缺失数据处理方法,对每种方法的优缺点进行了详细的分析,并基于这些方法提出了一种混合缺失数据处理方法(MDMV)。用C4.5算法对每种方法处理过的数据集建模,经过测试,实验的结果证明本文所提出的混合缺失数据处理方法是一种有效的缺失数据处理方法,在后面章节实验中的缺失数据均以此方法为依据进行处理的。   3.对众多分类算法仅强调分类精度,而将所有错误分类的代价视为平等的不足之处进行分析,在均匀常数分布的基因表达式编程决策树算法的混合矩阵(Confusion Matrix)中引入代价矩阵,给出每种不同错误分类的不同代价,提出一种基于该算法的代价敏感分类算法,最后用实验证明了该算法在小数据集上能取得良好效果,并说明该算法在大数据集上的效果不佳,有待进一步改进。   4.分析指出了均匀常数分布基因表达式编程决策树分类算法(UDC-GEPDT)的不足,并将它与差分演化算法结合起来,提出了基于差分演化算法的基因表达式决策树分类算法(UDC-GEPDT+DE),实验证明了该方法在分类问题中能取得良好的效果。
其他文献
三维场景建模一直以来都是计算机图形图像处理和计算机视觉中最活跃的研究领域之一。它在工业设计与制造、娱乐、教育、视听艺术及军事等方面都有广泛的应用。研究人员对三维
本文分别对近邻法、多视角学习以及组合学习进行了相关的理论和算法的研究,并对它们分别进行了改进。在实际应用中,近邻法是一种应用广泛而且简单有效的方法。但传统的近邻法
互联网、多媒体和通信技术的飞速发展,使得多媒体数字产品的传播和复制非常容易,因此多媒体数据的安全问题越来越受到人们的重视。数字水印技术可以有效地解决多媒体数据的安
P2P技术的广泛应用在大规模分布式计算领域,如:文件的共享(file-sharing)、数字内容的分发(digital content delivery)、P2P网格计算(P2P Gridcomputing)等。同传统的基于C/S
如今计算机系统已经在一些关键的行业(如民航订票系统、银行结算系统、证券交易系统等)得到广泛应用,这些计算机系统可靠稳定的运行起着非常关键的作用。在这些领域的高端容
机载激光雷达(Light Detection And Ranging, LiDAR)技术使获取海量地形数据变得越来越容易。随着应用的深入,经常需要对一个大面积区域构建数字地面模型(Digital Terrain mo
无线传感器网络(Wireless sensor networks, WSN)技术的飞速发展和日趋成熟,使得其能够提供的信息采集功能和查询处理能力不断强大,进而推动了无线传感器网络在诸多领域的广
VPN就是在公用网络上利用专门的加密技术构建一个虚拟的、专用的隧道,连接在Internet的两台机器通过隧道进行通信,VPN技术基于Internet,但又独立于Internet,因为隧道是私有的
针对传统的交通参数检测器存在的交通参数提取不足及安装、维护上的损耗问题,以车辆视频序列为研究对象,论文在已有的运动检测算法理论的基础上,改进了道路图像分割算法以及
随着信息时代的到来,互联网技术得到了飞速的发展,数字化图书馆、数字化办公也变得越来越普及,于是网络上的信息在以几何级数般的速度在膨胀。面对网络上如此浩瀚的信息,和人们有