论文部分内容阅读
粗糙集(RoughSet,简称RS)理论是一种全新的刻划不完整性和不确定性的数学工具。本文针对粗糙集理论的特点,从其核心问题——约简问题以及属性离散化问题两方面展开探讨。
在认真学习和研究了粗糙集理论基础知识及其特性基础上,从知识表达系统出发,结合粗糙集理论的依赖度定义,应用遗传算法进行知识的相对约简。同时,在适值函数的选取上引入了惩罚函数和罚系数,从而保证所求的约简在包含最少而非零个属性的基础上保持原有的分类能力。通过多个仿真结果可看出,该算法对求解知识约简问题是快速而有效的,在多数情况下,均能求出最小知识约简。但是,在代数表示下,粗糙集理论的一些概念与运算的直观性较差,因此本文在上一阶段工作的基础上,提出了一种综合信息熵和遗传算法的约简方法,其基本思想是:将条件信息熵的重要性定义融入了适值函数中,使得约简结果不仅能保持原有的分类能力,而且是众多最小约简集中相对最优的一个。通过实例分析可以看出,该方法有更广泛的适用性,约简速度也相对较快。
制约粗糙集理论发展和应用的瓶颈是,该理论无法直接用于连续数据,因此连续数据离散化便成了粗糙集理论研究的另一大热门。Parzen窗方法因其提供了衡量连续属性离散结果是否稳定的标准,在本文中将其用于搜索最优离散化结果的标准中,仿真结果表明该方法是有效的。但是综合考虑信息系统的分类精度发现,Parzen窗方法并不完善,因此将粗糙集理论的分类精度概念运用到数据离散化上来,利用PSO强劲的全局搜索能力实现了决策系统的属性离散化。仿真结果表明,该方法能最大限度地保留数据原有的分类能力。
本文最后将离散化方法及约简方法用于数据的分析和处理中,得到了较好的结果。