基于流形的矩阵分解方法研究及在生物组学数据中的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户：kkkdddz

【摘要】

：

随着癌症基因组图谱（The Cancer Genome Atlas,TCGA）计划和人类细胞图谱（The Human Cell Atlas,THCA）计划的开展,产生了海量的生物组学数据。这些组学数据中含有关于生物功能与基

【作者】

：

于娜

【出处】

：

曲阜师范大学

【发表日期】

：

2004年期

【关键词】

：

非负矩阵分解低秩表示鲁棒性测度流形学习生物组学数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着癌症基因组图谱（The Cancer Genome Atlas,TCGA）计划和人类细胞图谱（The Human Cell Atlas,THCA）计划的开展,产生了海量的生物组学数据。这些组学数据中含有关于生物功能与基因调控的重要信息,对其进行挖掘研究可为探索疾病的产生、预防和治疗提供有效的帮助。生物组学数据具有高维小样本的特点,矩阵分解方法作为一种有效的降维技术已得到诸多学者的广泛关注。然而,当数据中含有噪声和异常值或数据中的流形结构被忽略时,传统矩阵分解方法的性能易受到影响。本文旨在通过对现存的非负矩阵分解（Non-negative Matrix Factorization,NMF）方法和低秩表示（Low-rank Representation,LRR）方法进行完善和改进,并将其成功应用于组学数据,具体研究内容如下:（1）针对生物组学数据含有高维性、流形结构等特点,提出了基于图正则的鲁棒非负矩阵分解方法（GrRNMF）。该方法通过施加图正则约束以将数据样本之间的内部联系考虑到算法中,充分利用数据中包含的成对几何信息。然后,对高斯噪声和稀疏噪声单独建模,解决数据降维性能受稀疏噪声影响的问题。其次,在目标函数中添加稀疏约束,使所求结果更加精确。最后将该方法应用到基因表达数据上进行分析验证。（2）针对生物组学数据中样本点间具有复杂联系的问题,提出了基于L_2,1范数的超图正则非负矩阵分解方法（RHNMF）。该方法对NMF进行鲁棒和流形约束。在估计残差时使用L_2,1范数约束,使得误差函数不再是平方残差的形式,这将会抑制噪声和异常值的影响。然后,通过在目标函数中添加超图正则化约束,RHNMF可考虑更多数据样本点间复杂的高阶关系,进而深入挖掘数据中涵盖的信息,提高方法的性能。最后将该方法应用于整合的基因表达数据中进行聚类和特征选择。（3）针对生物组学数据含有噪声和异常值的问题,提出了基于相关熵的超图正则非负矩阵分解方法（CHNMF）。具体来说,在CHNMF的损失项中使用相关熵测度而不是欧几里得范数,以提高方法的鲁棒性。然后,把超图正则项应用于目标函数中,以探索更多样本点间的高阶几何信息。其次,采用半二次优化（Half-quadratic Optimization,HQ）技术求解这个复杂的优化问题。最后在泛癌数据集上进行聚类、特征基因的选择和构建特征基因的表达网络,为癌症的系统研究提供帮助。（4）针对NMF的整合模型挖掘同质信息时灵活性不足的问题,提出了基于图正则的多视图非负矩阵分解方法（GMvNMF）。将传统的NMF整合模型进行改进,分解为共享基矩阵,子空间转换阵和共享系数矩阵,提高了模型的灵活性。然后,在目标函数中引入图正则项,将数据中的信息利用率最大化。最后使用该方法对TCGA中同一癌症的不同数据类型进行分析,充分利用不同数据类型间的互补信息,进而为基因分子水平上的癌症研究提供新思路。（5）针对现存单细胞分析方法不能准确构建细胞相似度矩阵的问题,提出了基于柯西损失的图拉普拉斯低秩表示方法（CNLLRR）。首先,采用柯西损失函数（Cauchy Loss Function,CLF）来约束噪声矩阵,以提高CNLLRR对噪声和异常值的鲁棒性。此外,为了有效编码数据的局部流形信息,将图正则项施加于目标函数中。这都将保证所学习到的细胞相似度矩阵的质量。最后,将该方法应用于单细胞数据集上,有助于理解复杂生物系统中细胞群落的异质性。各项实验结果表明,本文提出的方法有效考虑了数据中的流形信息或噪声和异常值。它们不仅优于其他同类方法,还具有更好的聚类和特征选择效果。

其他文献

稳健高效SAR多元特征协同优化

合成孔径雷达(SAR)技术是一种重要的微波观测手段,具有全天时、全天候、远距离、高分辨等特点,并在航空航天、地面检测、战场侦查和武器制导等领域具有重要的应用价值。随着S

学位

合成孔径雷达交替方向多乘子高分辨成像特征增强

五斗柜家具倾覆稳定性研究

五斗柜因其储物能力强等实用性优势,已成为必不可少的家具用品之一。然而,不合理的设计易导致五斗柜存在较大的安全隐患,近年来也频繁出现五斗柜倾翻压住幼童致死的新闻。为

学位

五斗柜倾覆稳定性重心位置抗倾覆力矩影响系数

PEDOT:PSS/CNTs基同轴纳米结构复合物用作超级电容器电极材料的研究

由于环境问题日益突出,超级电容器作为重要的新能源器件引起了社会的广泛关注。如何在保证功率密度和电化学稳定性的前提下,提高超级电容器能量密度和倍率性能是目前研究者面

学位

同轴纳米线纳米片高温退火无定型碳

氮化碳基光催化剂的制备及其光降解性能研究

近年来,作为无金属半导体材料的石墨碳氮化物(g-C_3N_4)具有高效独特的结构和高的热稳定性和化学稳定性而受到越来越多的关注。由于其突出的优点如制备工艺简单,存在合适的导带价带位置(g-C_3N_4的带隙宽度为2.7eV)和热稳定性,展现了其广阔的应用前景。但是其仍然存在比较明显的问题,但纯g-C_3N_4具有电子空穴复合率高、比表面积小、可见光利用效率低、催化剂活性差、寿命短等。本文以石墨相氮

学位

氮化碳金属掺杂复合光催化

多壁碳纳米管纸及其复合材料防除冰性能研究

碳纳米管具有优异的导电性和导热性,而通过多壁碳纳米管制备而成的多壁碳纳米管纸,作为碳纳米管的二维材料。不但具有轻质、耐腐蚀以及优异的导电、导热性,还兼具多壁碳纳米

学位

多壁碳纳米管纸热导率电热性能防除冰分子动力学

Tim-3/Galectin-9信号通路在泡球蚴感染中免疫调节作用的研究

目的:研究Tim-3/Galectin-9信号通路及相关分子在泡球蚴持续性感染中的变化特点,探讨其在泡球蚴感染中的免疫调节作用。方法:将6~8周龄BALB/c小鼠随机分为感染组和对照组,感

学位

泡球蚴感染Tim-3Galectin-9Th1/Th2型细胞因子

有机光敏剂与铜协同催化的不对称炔丙基自由基氰基化反应

炔基官能团广泛存在于许多药物与天然产物中,并且可以转化为其它多种官能团。因此,炔烃类化合物的合成及其转化具有十分重要的意义。催化不对称的炔丙位官能化反应是合成含手

学位

炔丙位官能化可见光催化铜催化自由基氰基化不对称催化

附属肋条对立管涡激振动响应的影响分析

海洋立管长期服役于海洋环境,不可避免地存在生物附着现象,引起管壁粗糙化,粗糙后的管壁势必会影响其涡激振动响应,本文重在探究粗糙凸起对立管涡激振动响应的影响,由于表面

学位

附属肋条涡激振动Q准则三维绕流

不同基体层厚仿生叠层SWCNT/6061Al复合材料的微观组织与力学性能

碳纳米管(MWCNT/SWCNT)增强铝基复合材料呈现出高强度、高模量及低密度等卓越的力学特征,在航空航天、交通运输与能源环境等领域应用前景广阔。启迪于贝壳珍珠层的“砖-砌”

学位

碳纳米管铝基复合材料层厚微观组织力学性能

三价稀土离子光学跃迁的Judd-Ofelt理论应用研究

近年来,稀土发光材料广泛应用于照明光源、显示器、光纤放大器、光通信和生物医学等领域,稀土掺杂的发光材料因此而备受关注。Judd-Ofelt(J-O)理论是探究三价稀土离子4f-4f跃

学位

J-O参数K-M方程漫反射光谱荧光衰减荧光强度比

基于流形的矩阵分解方法研究及在生物组学数据中的应用

与本文相关的学术论文