基于混合遗传算法的分类规则挖掘方法及其并行实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:seankkk2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是按照一组数据对象的特征给出数据对象数学划分的过程,已经在统计学、机器学习、神经网络以及专家系统中被广泛研究。近来,它又成为数据挖掘的一个重要研究方面。实际上,分类是一个两步过程,第一步,建立一个模型,描述指定的数据类集或概念集;第二步,评估模型的预测准确率,如果模型的准确率可以接受,使用模型进行分类。通常,模型可以用分类规则、判定树或数学公式表示。目前常用的分类规则挖掘方法有遗传算法、决策树方法、神经网络等。 基于传统遗传算法的分类规则挖掘方法通常存在以下问题:(1)对每个类只能产生一条分类规则;(2)挖掘出的规则质量不高;(3)优化后种群中冗余规则太多;(4)分类准确率不高。本文提出的基于混合遗传算法的分类规则挖掘方法能够有效克服上述缺点,提高分类规则挖掘的准确性。 本文首先介绍了数据挖掘的产生背景、定义和功能,指出预测准确度、计算复杂度和模型描述的简洁度是评价分类模型的三个尺度,并对一些常用的分类规则挖掘方法进行了分析和比较。 介绍了遗传算法和局部搜索算法的基本原理,并分析了遗传算法和局部搜索算法的优缺点。遗传算法虽然具有很强的全局搜索能力但局部搜索能力较差,另一方面,局部搜索算法具有较强的局部搜索能力,因此可以将两种算法相结合,构成混合遗传算法。 分析了分类规则挖掘原理,指出标准遗传算法并不太适合分类问题,因此提出了一种基于混合遗传算法的分类规则挖掘方法。混合遗传算法采用了Michigan方法,每个染色体代表一条分类规则。为了使混合遗传算法能够产生多条高质量的规则,设计了针对分类问题的编码方案、适应度函数、个体生成函数、遗传算子和局部搜索算子,并在适应度函数中提出了简洁度因子。另外,在优化后的种群中存在一些冗余规则,考虑到规则集的简洁性,提出了一种规则提取方法。实验表明,基于混合遗传算法的分类规则挖掘方法能够从数据集中发现一个简洁、准确、易理解的规则集。 最后,分析了分类算法的并行性,并在基于Windows 2000的PVM并行计算平台上实现了并行分类算法。此算法采用粗粒度的主/从模型,特别适合在PC机群上运行。实验表明,所设计的并行分类算法具有良好的加速比。
其他文献
USB(UniversalSerialBus)总线协议是以Intel为主并由Compaq、Microsoft、IBM、DEC、NorthernTelecom以及日本NEC等共七家公司共同制定的串行接口标准,由于其即插即用及配置简
由于无线通信技术的发展,有限的频谱资源难以满足人们的需求,在加上在当前的频谱分配制度下,频谱资源的利用率很低。为了解决这两个问题,一种能认知外界通信环境的智能通信网络应
空间索引技术在计算机辅助设计与制造(CAD/CAM)、地理信息系统(GIS)、图像处理(image processing )、虚拟现实语言设计(VRML)、数字地球(digital earth)等诸多领域均具有十分重要的研究
生物图像的应用已逐渐覆盖了我们日常生活的方方面面,其中最典型的就是在医疗和身份识别等方面对人类生物图像的使用,通过对这些应用的研究,极大的方便了人们的生产活动。  在
本文通过识别圆钢端部图像来实现对成捆圆钢的计数。首先,针对图像光照不均匀的特点,在Otsu自动域值选择方法的基础上,使用信息度量的方法对原始图像进行二值化处理。 其次,我
模式识别是近年来的热点问题之一。模式识别一般分为五个步骤:数据的获取,预处理,特征提取,特征选择以及分类器分类。特征提取和特征选择是分类问题的两个关键步骤,主要用于快速准
针对智能IC卡操作系统中的某些问题进行了深入的研究,剖析如何按照ISO7816国际标准,设计与实现一个多任务智能IC卡操作系统.首先对IC卡操作系统的结构模型做了深入的研究,给
随着网络技术的发展,现代远程教育已经成为教学中越来越重要的组成部分。但是在远程教育中,学生和教学机构在地理上处在不同的位置,这使得一些实验很难再到实验室去进行了。因此
学位
嵌入式设备是数字化时代的一大主流产品。嵌入式软件是数字化产品的核心,而嵌入式操作系统和开发工具又是嵌入式软件的基础和龙头。在嵌入式软件开发过程中,调试工作最终需要