论文部分内容阅读
多标记迁移学习旨在利用相似领域内的多标记样本辅助训练目标领域训练分类器。当前的研究主要关注如何缩小领域间的差异性,通常在特征子空间中缩小跨领域数据的概率分布差异,从而学习共性特征表示。现有的多标记迁移学习算法总是暴力挖掘所有标记的联系,这在理论上虽然充分利用了不同标记间的相关性,拟合现实模型,但是当标记数量过多时,模型面对的待训练类别数会呈爆炸性增长。对于数量一定的小规模训练样本,使得每个类别对应的训练样本数量进一步减少,类间的样本数据分布不平衡问题凸显,大大增加了分类器的训练难度。此外,现有多标记迁移学习算法通常采用缩小领域间的边缘概率分布来映射公共特征子空间,但仅仅缩小边缘分布无法满足所有场景的应用需求,当边缘分布差异较小但类间差异较大时,已有算法无法适用此场景,本研究对上述技术问题展开研究。同时,在基于多模态的早期阿尔茨海默病(Alzheimer’s disease,AD)诊断中,有标记信息的样本稀缺,因此多标记迁移学习常常将晚期阶段患病特征迁移至早期诊断中。据研究表明,皮质厚度反映了不同脑区的萎缩情况,具有较强判别能力。但是,引入皮质厚度会带来一定的冗余特征,已有算法无法解决特征迁移时的冗余问题,本文改进先前算法并将其应用到早期AD诊断中。本论文贡献如下:(1)针对领域间标记空间过大问题,设计了一种基于标记空间分解的多标记迁移学习学习算法(L-MLTL)现有的多标记迁移学习算法忽略了标记空间过大带来的学习难题,设计了基于标记空间分解的多标记迁移学习方法(Multi-label Transfer Learning Via Label Label Space Decomposition,L-MLTL),利用标记一致性矩阵分解技术(Label Consistent Matrix Factorization,LCMF)将原始标记空间分解为一个完备标记矩阵和一个编码矩阵,并利用编码矩阵替代原始标记矩阵进行特征迁移。通过在基准数据集Core15K、ESPGame和 Iaprtc12 上的迁移实验,L-MLTL 的 Hamming loss、Ranking loss、Coverage 和 Average Precision指标优于对比算法约4.2%、9.8%、2.6%和1.1%。值得注意的是,在基准数据集上,当标记数量大于4时,L-MLTL的分类性能将优于已有算法。结果表明,编码矩阵与原始标记矩阵相比,具有更优的判别能力,这将减轻模型的学习复杂度。(2)针对现有多标记迁移学习算法泛化能力较差的问题,设计了一种基于联合分布的多标记迁移学习算法(J-MLTL)现有多标记迁移学习方法通常度量领域间的边缘概率分布而导致算法适用范围受限,因此本文设计了 一种基于联合分布的多标记迁移学习(Multi-label Transfer Learning via Joint Distribution Alignment,J-MLTL)。通过缩小跨领域数据的边缘分布和条件分布差异来降低领域间的差异,同时利用超图学习加强多标记之间的相关性,从而保证良好的迁移效果。通过在基准数据集Core15K、ESPGame和Iaprtc12上的迁移实验,相比于 S-MLTL、M-MLTL 等算法,J-MLTL 的 Hamming loss、Ranking loss、One-Error、Coverage 和 Average Precision 指标分别提升了 5.7%、11.1%、2.8%、21.6%和 7.2%。实验证明,基于联合分布的度量方法明显优于单一边缘分布或条件分布,有效提升分类精度。(3)解决皮质厚度特征迁移时带来的特征冗余问题,本文设计了一种基于两阶段特征迁移的早期AD诊断方法(2STL)为了从冗余皮质厚度特征中寻找到最有判别性的脑区皮质厚度,进一步提升模型学习效率和分类精度,计了 一种基于两阶段迁移的早期AD诊断方法(Early diagnosis of AD based on two-stage transfer learning,2STL)。本研究在 J-MLTL 的特征子空间中引入最小冗余最大相关性(minimal-redundancy-maximum-relevancy,mRMR)方法剔除冗余特征,为了从冗余皮质厚度特征中寻找到最有判别性的脑区皮质厚度,进一步提升模型学习效率和分类精度,最后利用TrAdaBoost算法进行实例迁移,减少无关样本对分类的影响。对于ADNI数据集,2STL的分类精度为68.6%,优于M2LTL、rMLTFL约2.1%。通过实验验证,移除冗余特征能够提升迁移精度,此外两阶段迁移(特征迁移+实例迁移)的性能更佳。