面向单细胞转录组测序数据的集成聚类方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:l_chuanfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着下一代测序技术的发展,单细胞RNA测序(scRNA-seq)已成为揭示细胞间广泛异质性不可或缺的工具。聚类是揭示单细胞转录组谱的一项基本任务,也是受到广泛关注的关键计算问题。最近,针对scRNA-seq数据研究者们开发了许多聚类算法,其中包含一些结合数据降维和深度学习的聚类方法。然而,由于scRNA-seq数据低维潜在空间的特征表示不稳定,与降维相结合的深度学习聚类方法仍然不能产生稳健的聚类效果。并且计算模型往往受到现实的限制,如数值不稳定性、高维数和不可扩展性等。此外,积累的细胞数和高缺失给分析带来了巨大的计算挑战。为了解决这些问题和限制,本文提出了两个单细胞转录组测序数据集成聚类算法。本文在14个真实的scRNA-seq数据集上提供了四种特征选择方法和九种scRNA-seq聚类算法的系统和广泛的性能评估。在此基础上,提出了一种使用多种特征选择算法的scRNA-seq数据的集成共识聚类算法,称为scEFSC。具体而言,该算法采用几种无监督的特征选择以去除对scRNA-seq数据没有显著贡献的基因。然后,使用不同的scRNA-seq聚类算法,对多个无监督特征选择过滤后的数据进行聚类,之后使用基于加权的元聚类方法对聚类结果进行合并。最后,将scEFSC应用于14个真实的scRNA-seq数据集,实验结果表明,scEFSC在几个评估指标上优于其他scRNA-seq聚类算法。此外,通过进行差异基因表达分析、基因本体论富集和KEGG分析,验证了scEFSC的生物学可解释性。基于深度学习与降维,本文提出了基于双重去噪的scRNA-seq数据的二分图集成聚类算法,称为scBGEDA,以捕捉更有鉴别力的特征表示,从而对细胞群进行聚类。在scBGEDA中,提出了一个双去噪自动编码器结构,以建立输入和潜在表示之间的关系。它优化了一个双重重建损失函数,捕获单细胞RNA-seq数据的稳健特征表示,执行潜在表示的重建约束。此外,还设计了一种具有基于图的共识函数的二分图集成聚类算法,从而利用样本之间的关系,在学习到的潜在空间上实现最佳聚类结果。对来自不同测序平台的15个scRNA-seq数据集进行了多次对比实验。实验结果表明,scBGEDA在这些数据集上的表现优于其他最先进的方法。此外,采用标记基因检测分析和功能基因组分析作为后续的下游分析,为识别细胞类型和从不同角度描述scRNA-seq数据带来新的见解。
其他文献
自新冠肺炎疫情爆发以来,如何快速诊断人群是否感染该病毒成为全球卫生领域的一大难题。除世界卫生组织官方推荐的病毒核酸检测外,在我国卫健委发布的《新型冠状病毒肺炎》诊疗方案(试行第九版)中明确指出医学影像对新冠肺炎的临床分型有重要意义,是区分新冠肺炎轻型(无需住院)与普通型的金标准。鉴于能进行医学影像诊断的放射医学人才十分有限,难以完成繁巨的临床任务,利用机器学习中的深度神经网络对新冠肺炎的医学影像进
学位
我国作为板栗原产国,产量常年位居世界第一,但由于缺乏深加工产业及现有加工产品附加值低等问题严重制约了我国板栗产业链的发展,这主要与对板栗加工性质和营养功能的研究不够深入有关。而淀粉作为板栗的主成分,其存在加工后消化率升高及易回生等问题在一定程度上限制了高品质营养健康板栗食品的开发。因此,从协同调控板栗淀粉消化性能及回生性能的视角,在提高其营养功能的同时赋予其优良的加工品质,是突破板栗制品创制瓶颈的
学位
随着深度视觉网络在如自动驾驶、医疗诊断等风险敏感应用中的普及,网络的安全性逐渐成为学术界和工业界的研究重点。在此背景下,用于安全漏洞检测的对抗攻击技术应运而生。对抗攻击通过生成相似于原始图片的对抗样本的方式,暴露网络的安全漏洞,从而为基于漏洞弥补的防御策略研发提供样本支持。然而,现有攻击方法在实际部署网络中的应用仍存在局限性。一方面,大多数攻击方法将分类网络当作目标攻击模型,难以推广至结构更为复杂
学位
车辆自适应巡航控制(Adaptive cruise control,ACC)系统是车辆高级辅助驾驶系统的重要组成部分,能够减轻驾驶员负担,提高驾驶安全性,对于燃油经济性也有一定的改善作用。随着无线通信、物联网、人工智能等先进技术的应用,车辆智能化和网联化程度不断加深,在行驶过程中能够获取多层次、多尺度的交通网联信息。在智能网联的背景下,基于ACC基础的预测巡航控制(Predictive cruis
学位
转移是癌症研究中一个长期存在的问题,阐述癌症的转移机制对于癌症的临床诊断以及晚期癌症患者的治疗具有十分重要的意义。作为癌症发展中最为致命的一个过程,大约有90%的患者死于癌症的转移阶段,并且常常表现出对某些器官的偏好性,大脑、骨头、肝脏和肺部是四种最常见的转移器官。差异表达基因并不具有保守性和特异性,很难从系统层面解释复杂的癌症机理,缺乏对系统级特性的整体看法。得益于基因测序技术的进步以及网络建模
学位
淀粉Ghost是淀粉糊化后残留在淀粉糊(Gelatinized Starch Dispersions,GSD)中的不溶性空心囊结构,因其形似“ghost”而得名。深入了解淀粉Ghost的组成、结构与性质有利于把握GSD的整体功能性质,精准化生产含Ghost产品。目前关于淀粉Ghost的组成结构与性质的研究已有不少,但缺乏对影响淀粉Ghost结构与性质因素的系统性研究。本论文分别从内部因素(淀粉种类
学位
桑椹花色苷作为颜色鲜艳且无副作用的天然色素,具有多种生物活性。本文以桑椹花色苷为研究对象,分别利用分子辅色技术和微胶囊化技术提高桑椹花色苷的稳定性,并探究分子辅色反应的机理,从而拓宽其在食品、化妆品和生物医药等领域的应用。首先选取了七种不同化学结构的酚酸、酚醛(对羟基苯甲酸、原儿茶酸、没食子酸、阿魏酸、咖啡酸、香草酸、香草醛)与桑椹花色苷进行辅色作用。分析辅色反应前后的紫外扫描光谱变化,比较辅色剂
学位
下呼吸道感染(Lower respiratory tract infection,LRTI)是一种严重危害人类健康的感染性疾病。LRTI危重病情多由细菌引发,且病原谱广泛,因而临床上迫切需要一个全面的检测组以实现LRTI细菌的快速、准确诊断。基于此,本论文发展了一种基于液滴编码-配对的微流控多重数字化环介导等温扩增(Loop-mediated isothermal amplification,LA
学位
当前,逐渐增强的细菌耐药性已成为全球性的公共健康问题。耐药性细菌感染不仅会延长治疗周期和增加治疗花费,还会显著增加病死率。造成细菌耐药性增强的一个重要原因是抗生素滥用,因此合理使用抗生素成为了一个迫在眉睫的问题。临床工作中通过抗生素敏感性测试(Antimicrobial Susceptibility Testing,AST)来指导抗生素的选择。但是,常规AST方法普遍存在测试时间较长的问题,难以满
学位
锥栗是我国的经济林树种之一,其果实营养丰富,深受大众喜爱。本文选取了两个具有代表性的锥栗品种“金锥(YS)”和“白岩一号(WS)”,探究锥栗果仁发育过程(S1、S2、S3和S4时期)中淀粉和微量营养素(维生素E、类胡萝卜素和多酚)的代谢变化规律。另外,考虑到新鲜锥栗不耐储藏的特性,本文进一步探究了水煮和烤制两种热加工处理方式对成熟锥栗果仁中淀粉和微量营养素的影响规律。研究结果如下:(1)探讨了锥栗
学位