基于混合紧凑遗传算法(HCGA)的分类方法及其在数据挖掘中的应用研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:Eryuelan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从一种特殊的遗传算法—CGA(Compact Genetic Algorithm)及其扩展(Extended Compact Genetic Algorithm)入手,通过大量实验比较了SGA(简单遗传算法)、CGA、ECGA的性能,提出了一种结合CGA与ECGA二者特性的混合遗传算法HCGA.利用HCGA的优良特性,在格子机数据挖掘理论的基础上提出了基于HCGA的数据挖掘分类算法,并用实验验证了这种算法的有效性.为了提高该算法的性能,利用MPI将HCGA并行化,实现了并行HCGA算法并将其用于分类,即实现了基于PHCGA(Parallel Hybrid Compact Genetic Algorithm)的分类算法.为了提高基于PHCGA分类算法的适用性,作者将其与IBM SLIQ分类算法结合,提出了两阶段的决策树建树算法,此算法可以减少树的深度并无需进行树的剪枝过程.最后该文将两阶段决策树算法应用于一个具有并行存储系统与并行计算功能的数据挖掘平台原型系统,对分类结果实现了可视化,并对某电梯公司的数据集进行了分析.
其他文献
通过对VOD技术、服务器负载均衡理论和服务器集群理论的研究与分析,该文提出了媒体服务器集群的设计方案,详细阐述了OpenVideo系统的媒体服务器集群和负载均衡的设计与实现,
论文主要研究内容包括:1.研究了主分量分析方法,结合面瘫判定的应用特点,对于单帧静态表情图像,用主分量分析的方法判别表情模式.提出沿对称轴相减的预处理方法,判定模式时引
该文简要介绍了访问控制技术的研究状况,详细描述基于角色的访问控制技术的相关内容;分析了时间特性在访问控制技术中的重要意义;提出一个基于个体的时间访问控制模型(TIBAC)
大数据时代,关系型数据库不再适合存储海量的大数据,如何存储和处理海量数据已成为一个难题。Hadoop的出现使问题出现了转机,它是一个对大量数据进行分布式处理的软件框架,其核心
随着计算机技术的发展和应用,当前Intel芯片和Windows操作系统成为一个主流发展方向,在市场上占有相当大的比率。这种趋势使得很多厂商都必须去发展自己的产品,使其能与Windows
该课题是IBM的大学共享研究项目(SUR)中的一个组成部分,其目的是实现下一代语义万维网的基础构架.该文的贡献和创新之处总结如下:●将语义万维网和知识表示相结合,从知识表示
水电仿真系统的目的是建立一个对水电厂运行进行仿真的环境,用来培训运行人员,达到完成培训后即可上岗工作的要求.相比在真实仪器上的培训,它具有代价小、速度快的优势.其中
随着计算机网络的飞速发展,人们的生活方式也发生了巨大变化。人类逐步进入了信息时代。互联网的广泛应用在给人们的工作和生活带来了极大方便的同时,也带来了不能忽视的负面影
到目前为止,万维网已经成为世界上最丰富和最密集的信息来源,但是,它的结构使它很难用系统的方法来利用信息.为了高效率地利用这些数据,首先必须要研究异构数据的集成问题.以
计算机网络与数据库技术的迅速发展和广泛应用,使得“丰富的数据与贫乏的知识”问题亟待解决。因此,我们必须寻求新技术和自动工具,以便帮助我们从大量数据中找到潜在有用的信息