论文部分内容阅读
传统的学习算法都是批量学习算法,即假设一次性获得所有样本,或者获得有代表性的样本,然后用其对分类器进行训练。但在实际的生活中,要一次性获得所有样本,或者获得有代表性的样本是不现实的。针对这种情况,传统的批量学习算法,面对新来样本时,总是将新增样本和之前所有已经学习过的样本进行再次学习,但这样会耗费很多时间,且对内存的要求也比较高。增量学习,能够在保存以前已经学习到的―旧知识‖的基础上,实现对样本的增量学习。仅对新样本进行增量学习,加快了算法的学习速度,也减少了算法对内存的需求,较好的解决了上述问题。国内外对增量学习已经进行了广泛的研究,主要有基于支持向量机的增量学习算法、基于贝叶斯网络的增量学习算法、基于神经网络的增量学习算法。极限学习机是单隐层前馈神经网络的一种典型学习算法,具有学习速度快、拟合度高、泛化性能好、分类速度快、参数设置容易等优点。 本文在极限学习机的基础上,引入监督聚类的概念,提出了一种新的增量学习算法--CW-ELM算法。论文中首先说明了监督聚类中,我们所拥有的重要先验知识--样本的类别信息;然后阐述了传统的、基于距离的聚类标准的缺点,从理论上说明了采用―样本输出‖是否接近作为新的聚类标准的合理性,在此基础上提出了一种新的监督聚类标准,即基于―样本类别‖和―样本输出‖的监督聚类准则。将同一样本类别的、―样本输出‖接近的样本分为同一簇。在构造极限学习机时,首先对样本进行聚类,并用一个矩阵去记录每个簇的簇中心;在进行增量学习时,我们只需将每个簇的簇中心和新来样本进行学习即可,而不用学习全部―旧样本‖,这样既加快了算法的学习速度,也减少了对内存的需求。此外,在计算极限学习机的隐层与输出层之间的连接权重时,如果采用传统的Moore-Penrose算法求广义逆矩阵,并不能满足极限学习机所要求的―分类后,数据集整体损失最小‖。为此,本文提出了一种加权的Moore-Penrose算法求广义逆矩阵。实验结果表明,CW-ELM算法具有拟合度高、泛化性能好等优点。