论文部分内容阅读
连续属性离散化是数据挖掘和机器学习研究及应用中的一个重要方面。在很多规则提取、特征分类算法中,连续(实值)属性必须进行离散化。连续属性离散化就是在特定的连续属性的值域范围内选取若干个离散划分点,将属性的值域划分为一些离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。连续属性离散化的过程,从实质上来说,就是用特定的阈值来对连续的属性空间进行划分的过程。离散化算法的关键在于如何获得最优划分,最大程度地保持信息表示的意义,减少信息损失。1982年波兰科学家Pawlak提出了粗糙集[1 ] (Rough Set)理论,该理论通常被用来处理不确定知识,在数据分析、数据挖掘等领域得到了普遍地应用,传统粗糙集理论只能对数据库中离散的属性进行处理,倘若某些条件属性或决策属性的值域为连续值,在处理前必须经过离散化。本文从粗糙集的观点出发,在保证条件属性和决策属性相对关系不变下,提出了一种新的区间分割的方法连续属性离散化算法实验结果与理论证明了算法的实效性。近年来由于人工神经网络(ANN)独特的信息处理和计算能力,人们对它给予了更多的关注。人工神经网络是一种解决实际工程问题的有效工具,由于隐藏单元已经引入了人工神经网络,所以它已经具有了更强的分类和记忆能力。本文通过对BP模型构建输入向量之间的非线性关系,偏差和学习步骤,提出了一个新的基于神经网络控制的变步长LMS算法。该算法采用一种新的自适应步长控制技术,在新算法中,其学习的步骤是通过BP神经网络控制,可用于具有自适应滤波应用的理想的功能得以明显体现出来。仿真实验表明BP-LMS算法确实可以有效减少收敛时间并达到满意的效果。本文从以下4个内容方面展开工作:1>介绍了离散化研究的背景、粗糙集理论、神经网络理论以及本文的组织结构。2>介绍连续属性离散化的过程,并对离散化算法的研究现状进行了综合探讨。3>提出了一种基于粗糙集理论的连续属性离散化新算法,通过C4.5和支持向量机分别对离散化后的数据进行识别与分类预测。理论与实验结果证明了算法的有效性。4>介绍了BP神经网络,其具有良好的非线性处理能力。神经网络学习到的信息是蕴涵在大量的连接权中,不容易被理解。本文在神经网络上提出了一个新的基于神经网络控制的变步长LMS算法。并进行了相关的仿真实验。