论文部分内容阅读
分类问题是数据挖掘、模式识别和机器学习等领域中的重要研究内容。随着分类问题的研究渐趋复杂化和智能化,如何提高分类系统的适应性和效率已经成为目前的热点。由于Rough集与软计算技术在处理不确定和不精确信息方面的优越性,使其成为解决复杂系统分类问题的有效方法。但由于各方法本身仍然存在着不足,导致其应用在分类问题中有许多缺陷,如:数据的适应程度低,计算复杂度高,有效集成难以及实用性差等,因此如何有效解决这些问题一直是人们研究的重点。
本文针对分类中的关键技术和目前存在的问题,采用Rough集与软计算技术相结合的方法,面向科研项目和实际应用,着重对分类中的数据离散化、数据转换、属性约简和分类方法进行了研究,所做的工作和取得的创新成果体现在以下几个方面:
(1)提出了基于Rough集和遗传算法的数据离散化方法GARD以及基于Rough集、神经网络和遗传算法的离散化模型ROGAND。实验表明,GARD方法和ROGAND模型都可以有效地进行连续属性的离散化,同时,利用GARD方法得到的属性值断点子集能很好的保持原有数据集的不可分辨关系;ROGAND模型基于全局设计,其结果产生的离散化区间不依赖于候选断点集合,而且区间表示值更为精确,具有较好的适应性。实验表明,这两种方法比类似工作有一定的优点。
(2)提出了基于Rough集的时态数据转换方法Fillin和Stepadd。Fillin方法为填充值法,Stepadd为增加步幅法。实例表明,这两种方法不仅可以有效地将时态信息系统转换成为传统的信息系统,而且与已有方法相比,不依赖于向后跟踪的时间长度,即无等时间间隔的限制,具有适应性和灵活性。
(3)提出了两种基于Rough集的属性约简方法:结合进化计算的连续值属性约简方法ReCA以及基于近似分类质量的属性约简方法ReBA。实验结果表明,ReCA和ReBA方法不仅可以有效地进行属性约简,而且与其他方法相比,具有较好的分类精度和约简效果。本文将ReBA方法应用于人脸自动识别系统,获得了显著的属性约简效果,其约简后的系统识别率较高。
(4)将进化策略与前馈神经网络结合,提出了一种基于多进化神经网络的分类方法CABEN。实验结果表明,该方法可以较好地进行数据分类,而且与传统的神经网络方法、贝叶斯方法以及决策树方法相比,在分类精度方面有明显的改善,体现出较好的稳健性和容错性,尤其适用于复杂分类问题。本文将CABEN方法应用于电力变压器故障诊断系统,其判别精度高,诊断结论准确可靠。