论文部分内容阅读
肿瘤识别是图像处理和模式识别领域最重要的问题之一,可以辅助医疗诊断.肿瘤识别主要基于基因、影像两大类数据.传统的模式识别方法大多是基于训练样本训练分类模型,然而,肿瘤识别是典型的小样本问题,通过有经验的医生专家对肿瘤病变区域进行标注是一件费事又费力的事.因此,从大量未标记样本中挖掘有效信息可以提高肿瘤识别效果.非负矩阵分解(Non-Negative Matrix Factorization,NMF)是一种无监督特征表示学习方法.NMF不依赖类标签信息,能同时探索所有可用样本中包含的有效信息,在肿瘤识别领域受到越来越多的关注.然而仍存在一些问题:(1)NMF模型是典型的欠定方程,解不唯一;(2)NMF模型优化迭代过程中,结果严重受到随机初始值的影响;(3)一些有用的信息被隐藏在提取的特征内.论文通过将NMF和深度学习相结合,充分考虑到肿瘤数据本身的特点,构建了三种具有良好的泛化能力和稳定性的深度未标记数据驱动模型,并对模型进行了优化求解和收敛性分析.本文主要工作概括如下:(1)提出了一种逐层预训练的多层-低秩NMF(LPML-LRNMF)模型,并用于基于影像的肿瘤识别.LPML-LRNMF模型由深度学习中的深层表示学习和逐层预训练策略驱动,将NMF和深度学习进行优势互补.考虑影像数据的内在特点,将低秩约束引入特征表示学习模型中.深层策略通过探索现有可用标记和未标记样本中包含的信息来增强NMF的表示学习能力.逐层预训练策略通过减轻NMF对迭代初始值的敏感性增强模型稳定性.然后基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)完成模型的优化求解,并分析了相应的收敛性.最后将所提出的LPML-LRNMF模型用于肿瘤识别,对公共数据集(MIAS)和浙江省肿瘤医院提供的实际临床数据集的实验表明,分类的准确性、特异性和敏感性都达到了临床可接受水平.(2)提出了一种逐层预训练的多层-稀疏NMF(LPML-SNMF)模型,并用于基于微阵列基因表达谱数据的肿瘤识别.LPML-SNMF方法通过NMF和深度学习进行优势互补,并结合了基因数据自身的稀疏性特点.值得一提的是,针对基因数据小样本的特点提出了一种基于决策信息因子(DIF)统计指标用于基因选择,与现有的基因选择方法相比,该方法首次将临床误诊率纳入基因选择.对五个公共测试微阵列基因表达谱数据集的实验表明,基于LPML-SNMF模型的肿瘤识别方法优于其他方法.(3)提出了一种深度未标记数据驱动的分类模型(Deep Unlabeled Data-Driven Classification,DUDC)模型,并用于基于微阵列基因表达谱数据的肿瘤识别.该模型将特征表示学习和分类融合到一个模型中,通过相互迭代优化从而优化分类结果.特征表示学习部分仍以NMF特征学习为例,在分类部分即使采用最简单的线性回归分类模型,所提出的DUDC模型仍具有良好的泛化能力和稳定性,特别是当训练样本很少且样本数量不平衡时.此外,所提出的DUDC模型通过广义ADMM进行优化求解,并进行了收敛性分析.最后,将DUDC模型用于肿瘤识别已验证其性能.在五个公共测试微阵列基因表达谱数据集上进行了实验,与已发表的最新方法和结果相比,分类准确性,特异性和灵敏度均有显著提高.