论文部分内容阅读
基因表达谱现代医学的重要研究内容之一,通过对相关数据的处理和分析,可以快速了解患者的病情,为后续的治疗提供有效参考。与常规数据不同,基因数据有两大特性:一、原始数据一般是高维数据,序列中伴随着大量的噪声和冗余特征;二是可供研究利用的样本数量非常少;这些特性给基因数据的处理和分析带来了巨大的挑战。矩阵的秩是数据信息复杂程度的数学表示,低秩矩阵分解是模式识别中常用的模型,由于其良好的数据恢复能力被广泛用于子空间恢复和分类。针对基因数据分析处理的技术难题,本文借鉴传统的低秩矩阵分解模型和流形学习中的经典理论,做了如下工作:1.基因表达谱研究现状与相关理论分析。介绍了基因表达谱的相关概念、常规处理步骤及相关特征提取方法,详细阐述了低秩矩阵分解和流形学习的相关理论,介绍了一些分类器的分类原理。2.针对基因表达谱数据的高维度、高噪声特点,提出了一种基于多正则约束非负矩阵分解的维数约简模型。借鉴非负矩阵分解模型在数据维数约简方面的独特优势,在该模型基础上引入低秩稀疏约束和流形正则约束。利用非负矩阵分解实现高维数据的低维特征提取,利用流形正则约束保持原始数据的近邻空间结构,同时用低秩稀疏约束去除噪声污染。通过验证提取后特征的分类性能,证明了算法的优越性。3.为了实现小样本状态下对子空间的正确恢复,提出了一种基于非负双图正则隐低秩表示的基因特征提取方法。隐低秩表示通过同时观测数据的主特征和隐含特征,增强了小样本情况下对基因表达谱子空间的数据恢复能力。在双重低秩的基础上,引入双重图正则约束,保持特征提取过程中原始数据的近邻关系结构。借鉴计算机视觉中的低秩稀疏约束,有效去除噪声。非负约束使得计算保持一定的稀疏度,整体表现出更好的鲁棒性。通过与普通低秩表示、隐低秩表示相比,所提出的非负双图正则隐低秩表示算法具有更好的特征提取性能。