论文部分内容阅读
二十一世纪以来,癌症已经成为危害人类生命安全的重大疾病之一,是解决全人类健康问题的首要研究对象。在测序技术的快速发展下,癌症测序数据源源不断地产生,为癌症研究提供了丰富的数据资源,促进了生物信息学研究领域的发展。然而,癌症测序数据的高维小样本特点,以及高冗余和多噪声的数据特性,对数据挖掘提出了挑战。准确、可靠的识别癌症类型,选择关键致病基因,对疾病的诊断和相关治疗方案的制定具有重要意义。稀疏低秩表示模型是针对高维数据进行子空间分割的有效模型,在多个领域得到成功应用,同时为癌症测序数据研究提供有效手段。本文针对癌症测序数据特点,以稀疏低秩表示模型为研究基础,对癌症样本聚类、特征选择问题进行研究和探索,提出了四种新方法,主要研究内容如下:(1)稀疏对称约束的图正则低秩表示方法:该方法对稀疏低秩表示模型施加图正则约束和对称约束,图正则约束实现了数据局部几何结构的保留,对称约束减弱了数据噪声对数据结构的影响。基于对称约束下的稀疏低秩表示矩阵主方向的角信息进一步构建相似度矩阵,通过谱聚类方法实现多类癌症样本聚类。(2)非负稀疏低秩表示优化模型:该优化模型通过非负约束保证低秩表示矩阵的非负性,将低秩表示矩阵作为癌症基因重要程度的评价权重,通过分数函数对癌症基因进行评分,并选择特征基因。该方法通过选择癌症特征基因子集,实现高维小样本数据降维,所选特征基因在区分不同癌症样本时具有较高的辨识度。(3)鲁棒超图正则加权稀疏低秩表示方法:该方法在处理癌症测序数据的高噪声问题中,通过最大似然函数对数据噪声建模。同时,它使用数据样本对间的权重信息优化稀疏低秩表示矩阵,并利用超图正则项探索数据高阶几何结构信息。该方法在癌症测序数据的样本聚类中取得了良好的效果。(4)多组学图正则紧凑稀疏低秩表示方法:该方法通过对癌症测序数据的线性建模实现数据字典的更新,并利用癌症多组学数据信息的丰富性、多样性,将多组学数据的各类数据信息进行协同处理,实现癌症多组学数据信息的融合,获得含有整合疾病信息的稀疏低秩表示矩阵,提高癌症样本聚类效果。本文的创新点主要是针对癌症测序数据特点,通过研究稀疏低秩表示模型,提出了四种方法:稀疏对称约束的图正则低秩表示方法,非负稀疏低秩表示优化模型,鲁棒超图正则加权稀疏低秩表示方法,多组学图正则紧凑稀疏低秩表示方法,并将上述方法应用于癌症测序数据的挖掘和处理。基于癌症基因组图谱数据集的实验证实了本文提出的新方法在癌症测序数据的样本聚类和特征选择方面具有良好的效果。