论文部分内容阅读
数据分类是数据挖掘的主要任务之一,它使用某种分类算法以预先准备好的训练样本数据为输入建立分类模型,最后利用分类模型预测元组的分类标号。分类算法的优劣直接影响模型的性能,常用的数据分类算法包括判定树归纳算法、贝叶斯分类算法和前馈神经网络分类法。前馈神经网络使用误差反向传递算法(简称BP算法)进行训练样本学习和数据分类。BP算法首先正向计算网络中各个神经元的激活输出,如果网络最终的输出不能满足容许条件,则利用能量函数反向计算网络中各个神经元结点产生的误差,最后利用这些误差调整网络中各神经元的阀值和各神经元之间的连接权值。使用前馈神经网络进行数据分类的最大优点在于其分类速度较快,然而缺点是BP算法会因陷入局部最优解而导致网络的分类准确率下降。本文将结合数据分类的属性编码机制和BP算法进行自我学习的数学机理深入分析局部最优解产生的根本原因,并在此基础上提出BP算法进行数据分类时的改进算法LMDBP算法。LMDBP算法的基本原理是在BP算法每进行一次网络参数调整之前,检测网络是否有可能进入局部最优解。如果局部最优条件已经出现,则只利用可以产生和局部最优条件相反条件的样本进行权值和阀值调节。利用MONKS分类问题的数据进行测试表明,LMDBP算法进行数据分类时可以避免局部最优解,从而保证了前馈神经网络的分类准确率。然而,仍然需要指出的问难是不论采用BP算法还是LMDBP算法,都存在进入学习平滑区的问题,从而导致在有限的学习时间内能量函数值无法被最小化,这有待于日后的研究加以解决。小波神经网络是近些年来兴起的一种新型前馈神经网络,它将小波元和神经元共同作为网络的信息处理元件,既利用高维小波分析的相关理论又保留了前馈神经网络的自我学习特性。基于已有的小波神经网络学习算法框架,本文给出了Gaussian小波神经网络学习算法的详细描述,并使用Gaussian小波神经网络分别对由离散属性值和连续属性值构成的两类不同测试样本进行了分类试验。试验结果表明,小波神经网络对具有连续属性值的样本具有很强的分类能力,而对于由离散属性值构成的样本划分能力很小。最后,由于目前没有可供实验和研究用的前馈神经网络数据分类平台,本文介绍了数据分类试验平台的详细设计,并采用Java技术实现了该平台。