论文部分内容阅读
无标注样本或标注样本量少时,机器学习构建的模型容易出现过拟合、表达能力差且泛化性差等问题,如极限学习机在无监督学习环境下容易出现精度低、泛化性差的问题。那么,如何利用现有的带标签数据集快速有效的对无标签的数据集进行分类呢?领域自适应是解决该问题的新兴方法。领域自适应能实现丰富标签的源域到无标签目标域的自适应,是解决上述问题的必然选择。本文研究领域自适应,构建对抗领域自适应模型来实现跨域自适应,设计基于迁移学习的图像识别模型,提出两种无监督机器学习模型,并应用到模式识别和医疗诊断场景,本文的主要工作如下:首先,提出一种对抗领域自适应极限学习机(ADAELM)。该模型通过引入对抗学习,将极限学习机与对抗学习融为一体。首先使用带标签的源域数据预训练模型,然后将预训练得到的模型参数作为对抗领域自适应网络的初始化参数,并使得源域和目标域模型与鉴别器进行博弈,以此来减小目标域与源域投影到一个公共的特征空间之后的域间差异,得到最优的目标域特征。最后,采用共轭梯度核极限学习机(CGKELM)对最优目标域特征进行分类,得出最终的分类结果。大量实验验证了方法的有效性,该方法在MNIST,USPS,OFFICE-CALTECH公共数据集上和COVID-19医疗数据集上验证了该方法的有效性,同时与其他方法的对比实验表明了该方法的优越性,结果表明了该方法具有快速稳定的特点。其次,提出一种无监督流形对抗领域自适应方法。该模型首先使用源域数据预训练的模型作为模型初始化参数,然后通过鉴别器与特征提取器之间的相互竞争,有效减小目标域与源域之间的域差异,嵌入流形学习减小类内差异,使得同一类别的数据彼此之间的距离逐渐缩小,进一步进行数据对齐,以此来辅助对抗学习过程,更大程度上发挥了对抗学习的作用。在公共数据集Office31上进行了图像识别实验,验证了该方法的有效性;在乳腺癌数据集和胃上皮肿瘤数据集上进行了肿瘤诊断领域自适应,实验结果表明了该方法具有良好的泛化性能,相比深度学习在训练速度上具有优势。