论文部分内容阅读
近年来,以深度学习为代表的自动编码器表示学习在机器学习预测和识别领域取得了显著的成就。在现阶段以自动编码器为基础的表示学习研究中,大部分学习采用两阶段的学习框架,第一阶段为无监督的特征学习过程,第二阶段为有监督分类学习。在此过程中,为了适应训练数据,在第一阶段继承了特征学习良好性能的初始模型权重将在第二阶段的监督学习过程中,由于没有对原本特征的表示约束而发生改变。也就是说,第二阶段的有监督学习会降低第一阶段无监督特征学习的学习效果。同时第一阶段特征学习并未用到任何监督学习的信息,削弱了第二步监督学习时目标信息对于非监督学习的启示性为了充分发挥特征学习和监督学习的优势,本文针对两阶段学习框架会导致特征学习的效果会被削弱的缺点,提出了一种同时进行特征学习和有监督的分类学习的联合框架。同时在此框架的基础上,本文提出了半监督自动编码器模型——一种基于自动编码器的半监督学习分类模型,该模型不仅能确保在特征学习中得到的原始数据完整的“语义”信息,而且能在监督学习中很好的适应训练数据。另外,根据本文提出的半监督自动编码器模型,文章提出了求解该模型的BP算法,该算法将特征学习参数和分类学习参数同时进行优化,然后分别通过梯度下降方法对模型中的分类器和自动编码器的参数进学习。实验部分,本文使用MNIST数据集对分离学习框架和联合学习框架中,第一阶段特征参数的变化情况进行可视化验证,说明改进模型对特征学习效果的保证。同时使用了UCI机器学习数据库的四个公共数据集——图像分割数据集(Image),约翰霍普金斯大学的电离层数据集(Ionosphere),孤立的字母语音识别数据集(Isolet)和图像识别数据集(Lird)进行实验。实验中运用逻辑回归模型(Logistic Regression,LR)与分离学习模型(Disjoint Learning Model,DLM)作为基准方法与本文提出的半监督自动编码器模型(Semi-Supervised Auto-Encoder,SSA)进行比较,从分类的准确性、隐层神经元数量对分类效果影响、以及迭代次数、训练数据比例对分类效果的影响几个方面来充分验证半监督自动编码器模型的有效性。