论文部分内容阅读
极速学习机是一种新型单隐含层前馈神经网络的训练方法.它将整个神经网络视为一个线性系统,通过线性系统的最小二乘最小模解来得到最优的网络参数,不仅有极快的训练速度,同时解决了局部最优与过适应的问题.大量的参考文献和技术报告显示极速学习机由于其极快的学习速度故可应用于众多的实际领域,特别是大数据领域的预测问题,表现出了良好的泛化性能.本文对极速学习机模型的中一些最基本、最关键问题进行了研究,包括训练残差的表示、模型稳定性,输入矩阵的秩在模型中变化,泛化能力与模糊性的关系,样本分治策略等.1.着重研究了极速学习机输入矩阵的秩,给出了这个秩与极速学习机的训练误差之间的关系,此关系被公认为极速学习机的一个关键问题,它对于剖析极速学习机的结构、分析稳定性和泛化能力、改进极速学习机作为一个逼近模型的性能有着不可替代的作用.给出了一个基于矩阵秩分析的极速学习机逼近能力和误差分析的一般模型,研究了输入矩阵维数的增长以及输入矩阵同中间矩阵的秩的变化关系,同时进行了训练误差的估计以及结果的稳定性的评价.2.提出一个基于固定误差的最小化L1模-极速学习机的遗传算法.考虑到L1空间与L2空间的解析性问题以及求解优化问题的本质性差异,提出了使用L2模型的解作为遗传算法的初始种群,实验证明,此模型极快地在有限步内收敛到L1空间的解.与随机产生初始种群相比,该模型在收敛性能与收敛速度上有着本质的改进,改进的原因主要是L1空间与L2空间问题最优解的关系以及L2模型的极速学习机有着极快的训练速度.3.研究了极速学习机的泛化能力和稳定性.有监督学习模型包括极速学习机的最重要的评价指标就是它的泛化性能,即使用极速学习机训练而得来的模型来预测未知样本类别时的正确率.有很多因素可以影响这个泛化性能,这些因素包括:训练样本是否足够、训练算法的收敛性、所选择的学习模型是否适合,以及网络的稳定性.基于这些因素,研究了极速学习机的稳定性,并从实验的角度来探索极速学习机的泛化性能和训练集输出的不确定性之间的关系.对一个训练好的前馈神经网络,如果输入与输出都视为随机变量,则输出的方差也表示了网络的某种稳定性.即使输入随机变量的分布密度已知且具有良好性质,输出随机变量的分布密度表达式导出也异常困难.故采用了蒙特卡洛模拟研究了包括极速学习机在内的几种前馈神经网路的输出方差,给出了稳定性的一个排序.这个排序对用户选择使用神经网络模型提供了有益的参考.4.研究了一个极速学习机的一组训练样本的输出不确定性与样本错分率的统计关系.该研究方法不仅适用于极速学习机,而且适用于任何具有向量输出的有监督学习模型.对一组样本而言,其输出的模糊性越大则被错分的可能性就越大.这种观察在不同类型的数据库上得到的实验证实,而且可从边界点的副作用角度得到合理的解释.基于这种观察,提出了一种学习模型的样本分治策略,该策略首先将训练样本按其输出的模糊性大小分开为两个部分,即低模糊性样本子集和高模糊性样本子集,然后使用一种半监督训练机制将低模糊性样本和它们的预测类标加入到训练集.实验证明,这种分治策略可以进一步提高极速学习机的泛化性能.