稀疏低秩表示模型的研究及在癌症测序数据中的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:hui1202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪以来,癌症已经成为危害人类生命安全的重大疾病之一,是解决全人类健康问题的首要研究对象。在测序技术的快速发展下,癌症测序数据源源不断地产生,为癌症研究提供了丰富的数据资源,促进了生物信息学研究领域的发展。然而,癌症测序数据的高维小样本特点,以及高冗余和多噪声的数据特性,对数据挖掘提出了挑战。准确、可靠的识别癌症类型,选择关键致病基因,对疾病的诊断和相关治疗方案的制定具有重要意义。稀疏低秩表示模型是针对高维数据进行子空间分割的有效模型,在多个领域得到成功应用,同时为癌症测序数据研究提供有效手段。本文针对癌症测序数据特点,以稀疏低秩表示模型为研究基础,对癌症样本聚类、特征选择问题进行研究和探索,提出了四种新方法,主要研究内容如下:(1)稀疏对称约束的图正则低秩表示方法:该方法对稀疏低秩表示模型施加图正则约束和对称约束,图正则约束实现了数据局部几何结构的保留,对称约束减弱了数据噪声对数据结构的影响。基于对称约束下的稀疏低秩表示矩阵主方向的角信息进一步构建相似度矩阵,通过谱聚类方法实现多类癌症样本聚类。(2)非负稀疏低秩表示优化模型:该优化模型通过非负约束保证低秩表示矩阵的非负性,将低秩表示矩阵作为癌症基因重要程度的评价权重,通过分数函数对癌症基因进行评分,并选择特征基因。该方法通过选择癌症特征基因子集,实现高维小样本数据降维,所选特征基因在区分不同癌症样本时具有较高的辨识度。(3)鲁棒超图正则加权稀疏低秩表示方法:该方法在处理癌症测序数据的高噪声问题中,通过最大似然函数对数据噪声建模。同时,它使用数据样本对间的权重信息优化稀疏低秩表示矩阵,并利用超图正则项探索数据高阶几何结构信息。该方法在癌症测序数据的样本聚类中取得了良好的效果。(4)多组学图正则紧凑稀疏低秩表示方法:该方法通过对癌症测序数据的线性建模实现数据字典的更新,并利用癌症多组学数据信息的丰富性、多样性,将多组学数据的各类数据信息进行协同处理,实现癌症多组学数据信息的融合,获得含有整合疾病信息的稀疏低秩表示矩阵,提高癌症样本聚类效果。本文的创新点主要是针对癌症测序数据特点,通过研究稀疏低秩表示模型,提出了四种方法:稀疏对称约束的图正则低秩表示方法,非负稀疏低秩表示优化模型,鲁棒超图正则加权稀疏低秩表示方法,多组学图正则紧凑稀疏低秩表示方法,并将上述方法应用于癌症测序数据的挖掘和处理。基于癌症基因组图谱数据集的实验证实了本文提出的新方法在癌症测序数据的样本聚类和特征选择方面具有良好的效果。
其他文献
据不完全统计,全球每年有1400多万癌症新发病例,约有880多万人死于癌症,占总死亡人数的1/6。目前研发出的预防和治疗癌症的药物主要分为两类,一类是细胞毒类抗肿瘤药,一类是
近年来,将目标分析物识别元件和电化学信号转换元件相结合,构建电化学生物传感器受到了研究者们的广泛关注。由于其具易于操作、经济、灵敏、便携和结构简单等优点,已在生物
原煤洗选对煤炭清洁高效利用具有重要意义。受洗选工艺限制,洗选前需要对大粒径的矸石进行排矸处理,传统人工排矸作业生产效率低、劳动强度大,工人健康得不到保证。为实现自动化和智能化排矸,本文研究了基于机器视觉的煤矸识别方法,并设计实现了一种煤矸自动识别系统。本文首先对煤和矸石图像处理方法进行了研究,形成了完整的煤和矸石图像处理流程。研究中,对比了多种图像去噪和锐化方法;并对输送带运输环境下的煤矸图像进行
本文针对非线性非仿射离散时间系统,提出了基于滑模的无模型自适应控制方法,并重点研究了非线性非仿射重复系统的基于滑模的数据驱动自适应学习控制方法。严格的数学分析与仿
筒节材料(2.25Cr-1Mo-0.25V)具有抗高温、塑性好、强度大等特点,常用于石油化工行业中。在实际切削过程中,硬质合金刀具切削筒节材料在高温高压环境下很容易导致刀具前刀面发
下肢康复训练外骨骼是一种面向下肢运动功能障碍患者的新型康复器械,目前国内在此方面的研究尚处于起步阶段。下肢康复训练外骨骼在进行运动控制前,一般需要进行步态参数的采
目的:恶性肿瘤是当今威胁人类健康的主要因素之一,早期诊断和及时治疗可以明显提高患者术后的生存质量和五年生存率。因此,肿瘤标志物作为肿瘤早期筛查的一项重要指标,对其高
X-射线计算机断层扫描(Computed Tomography,CT)技术由于其空间分辨率高、扫描时间短和成本低等优点而被广泛用于临床诊断。但是,CT扫描产生的高剂量电离辐射已被证明与白血
电致化学发光(ECL)分析技术由于其灵敏度高、选择性好、响应速度快、操作简便、成本低等优点,已成为生物分析检测的研究热点之一。提高分析传感的灵敏度和探索高效ECL新体系
本论文针对实际控制过程中遇到的外部扰动、随机测量噪声、初始条件变化等问题,提出了一系列迭代学习观测器和基于观测器的数据驱动迭代学习控制方案,讨论和分析了所提出方法