论文部分内容阅读
当今,癌症是威胁人类生命的一大杀手。随着第二代测序技术的发展,产生了海量可用的基因表达数据。虽然,这类癌症数据包含丰富的基因表达信息,为科研工作者从分子水平揭露癌症的发病机制提供了数据支撑。但是,癌症测序数据通常具有“高维、小样本和强噪声”的特点,这无疑是癌症数据挖掘工作中的一个极大的挑战。低秩表示(Low-rank Representation,LRR)是一种实现数据降维、减小噪声影响的矩阵分解方法,在癌症数据挖掘方面已取得了很多的成功。在查阅归纳了大量国内外相关文献的基础上,本论文针对现有LRR方法存在的部分不足,提出三种新的LRR方法,并将之应用到癌症基因表达数据挖据中,旨在研究癌症病变的内部机理,更精确地分析癌症亚型。具体研究内容如下:(1)提出联合截断核范数和图正则的低秩表示方法:LRR方法从观测数据矩阵分解出的低秩矩阵的奇异值是快速减小的数据序列,因此,最小化所有奇异值的核范数不是近似矩阵秩函数的最佳选择。该方法采用截断核范数代替核范数处理低秩矩阵的凸松弛问题,保留了与矩阵相关的主要成分的信息,有效降低了奇异值收缩造成的损害,更准确地近似了矩阵的秩。并且新方法引入了图正则项,捕捉到了数据蕴含的内部几何结构和相似性信息。癌症基因表达数据挖掘实验的结果显示,改进的方法增强了对噪声和离群值的鲁棒性。(2)提出双超图正则化的低秩表示方法:虽然,现有的LRR方法通过在低秩矩阵上施加图正则约束抓住了数据空间隐藏的的内部几何结构。但是,图正则无法发现基因表达数据固有的共表达信息。为了弥补这个缺陷,该方法引入两个超图正则项,分别施加在低秩矩阵和稀疏矩阵上,以提取癌症数据样本空间和基因空间存在的几何结构。癌症基因表达数据挖掘实验的结果表明,上述改进改善了方法编码数据结构空间的性能。(3)提出联合截断核范数和图正则的潜在低秩表示方法:基因表达数据具有小样本和高噪声的特点,多数的LRR方法将原始的数据矩阵作为字典矩阵不是最优的选择。该方法将原始的数据矩阵分解成两个特征矩阵和一个稀疏矩阵,其中一个特征矩阵用于癌症样本聚类,另一个特征矩阵用于差异表达基因识别,更好地处理了样本数量不足和被噪声污染的癌症数据。此外,该方法将整合的癌症基因组数据作为研究对象以探究多种癌症之间的内部关联,有效地解决了样本不均衡问题。