论文部分内容阅读
得益于深度学习强大的特征学习能力,深度学习在近年来获得了广泛的研究与应用。相对于传统机器学习方法,深度学习能够自动学习数据的高阶特征,节省了手工设计特征的工作。但是,当训练样本较少时,深度学习方法的过拟合问题严重,导致深度学习难以取得满意的效果。例如,在基因表达谱癌症分类任务上,由于基因表达谱数据的获取成本很高,使得可用的训练样本十分有限,导致直接在少样本的基因表达谱数据上使用深度学习进行癌症分类效果不佳。因此,本文以多个相关的基因表达谱数据集为研究对象,利用迁移学习挖掘多个基因表达谱数据的知识,有效提升了少样本基因表达谱癌症分类的效果。本文主要完成了以下两个工作:(1)大部分癌症基因表达谱数据集之间存在天然的联系,如急性白血病和慢性白血病,因此为了挖掘癌症基因表达谱数据集的知识来帮助另一个癌症基因表达谱进行分类,本文针对基因表达谱癌症分类任务,提出了一种新型的基于生成对抗网络的迁移学习模型(Adversarial Transfer Learning for Gene Expression Profile,ATL-GEP)。通过引入生成对抗网络,ATL-GEP模型能够自动地去除源领域表征和目标领域表征之间的差异,从而学习到两个领域的共享表征;在目标领域任务上,ATL-GEP模型能够进一步学习目标领域的本地表征,同时让目标领域任务学习出共享表征和本地表征的权重参数以决定表征的迁移程度,将共享表征和本地表征根据该权重进行融合,最终达到知识迁移的目的,提升基因表达谱癌症分类的性能。十四个癌症基因表达谱实验表明,相较于此前在基因表达谱数据集上取得最优结果的DNP模型,ATL-GEP模型在大多数基因表达谱数据集上提高了二到八个百分点的准确率。(2)当源领域数据集存在少样本的特性时,由源领域学习出的共享表征的泛化能力较差,限制了知识迁移带来的性能提升。因此,在ATL-GEP模型的基础上,提出了基于生成对抗网络的多任务学习模型(Adversarial Multi-task Learning for Gene Expression Profile,AMTL-GEP)。通过引入多个任务,AMTL-GEP模型可以同时学习多个任务的共享表征,进一步挖掘多个相关任务的内在关联,并在各个任务上学习本地表征,通过加权融合的方式结合本地表征和共享表征,同时提升多个相关任务的性能。十四个癌症基因表达谱实验表明,AMTL-GEP模型在大多数基因表达谱数据集上相较于DNP模型提高了一到八个百分点的准确率,同时在十四个任务的多任务实验中,AMTL-GEP模型在各个任务上准确率相较于ATL-GEP模型有进一步提升。