单细胞RNA测序数据挖掘算法研究

来源 :山东建筑大学 | 被引量 : 0次 | 上传用户:sheishei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年发展的基于高通量测序的单细胞RNA测序(single cell RNA-sequencing,scRNA-seq)技术能够在单个细胞粒度上进行基因表达测序,进而可以获得单个细胞内数万个基因的表达信息,这为区分不同类型细胞的基因表达特征和全面揭示细胞之间的异质性提供了支撑。但是由于测序技术的限制以及基因表达高度复杂等原因,单细胞RNA测序数据存在噪声较大、维度过高、稀疏性较强等特点,这导致传统聚类技术对不同细胞种群的聚类精度较低。为了提高不同细胞种群的聚类精度,本文基于scRNA-seq数据对如何提高细胞种群识别的准确率进行了研究。通过分析传统scRNA-seq数据处理方法在数据预处理、降维和聚类等方面存在的问题,提出了利用自动编码器作为降维技术的方法。基于堆栈降噪自动编码器(Stacked Denoising Auto Encoder,SDAE)能够最大程度降低数据损耗、对噪声数据具有良好的处理能力等特点,提出了SDAE-DBSCAN和SDAE-K-means两种降维-聚类方法。实验表明,本文提出的降维-聚类方法降低了原有算法对参数的依赖性,提高了对细胞种群的聚类精度。主要研究内容如下:(1)在数据预处理阶段,通过降低数据筛除比例来降低有效数据的损失率,并利用L2正则化对数据进行预处理。这不仅可以降低不同基因表达差距过大的问题,而且可以最大程度地削弱“强势”特征,并能够将数值较小但比较有特点的特征显现出来。(2)针对传统的PCA降维方法在处理scRNA-seq数据时贡献率不集中的问题,提出利用SDAE对数据进行降维并降噪的方法。利用随机置0的方法向原始数据中添加噪声,通过对受损的数据进行特征学习,提高模型的泛化能力。利用该方法对scRNA-seq数据进行特征学习可以自动识别出数据中存在的噪声点,并能够学习到鲁棒性更强的特征,进而为后续的细胞聚类提供更好的数据特征以提高对细胞种群的识别能力。(3)针对传统的细胞聚类算法需要设置聚类数量和聚类精度较低等问题,提出利用DBSCAN算法对scRNA-seq数据进行聚类。因为基因表达在多维空间中的形状结构不容易分析,所以K-means算法不保证适用;而且基因表达反应了细胞功能,同类细胞的功能表达分布在相似空间结构上应具备连续性,因此利用DBSCAN算法进行聚类分析。但是Eps和MinPts两个参数的取值对DBSCAN聚类影响较大,为了提高DBSCAN的聚类精度提出了改进的自适应计算参数值的聚类算法。对于传统的K-means聚类算法,发现利用SDAE对scRNA-seq数据进行降维可以在一定程度上提高K-means算法的聚类精度。本文利用deng数据集进行实验,实验结果表明本文提出的SDAE-DBSCAN和SDAE-K-means两种深度组合模型的聚类精度分别达到0.97和0.93,较传统的SC3模型分别提高了0.2和0.16。
其他文献
脊椎动物的眼睛在发育过程中会形成透明的晶状体结构,晶状体能够有效地折射光线来保证动物感知外界信息。晶状体的透明化依赖于晶状体纤维细胞中细胞器特别是细胞核的降解以及晶体蛋白(crystallin)的大量积累,该过程发生紊乱有可能导致晶状体浑浊,即白内障的发生,这是造成人类失明的主要原因。由于在晶状体分化过程中细胞核的退化降解阻碍了 mRNA的持续转录,因此晶体蛋白的大量积累必然伴随着其mRNA的高效
混流式喷水推进泵由于具有振动噪声低、附体阻力小、抗空化性能强等突出优势,已成为各国科技及军事工业优先发展的方向。由于进水流道几何结构限制以及驱动轴扰动,喷水推进器
第一部分:MANF通过促进自噬,减少内质网应激对胰岛β细胞的损害目的:探讨高糖高脂对人体血清MANF的影响以及在GLU、PA和TG诱导的内质网应激(ERS)下,MANF是否能促进自噬,减轻ERS,保护胰岛β细胞。方法:从重庆医科大学附属第二医院内分泌门诊及体检中心收集60例健康对照(NC)、40例单纯高脂血症(HLD)及71例新诊2型糖尿病(T2DM)人群的血清标本。用人源性MANF ELISA试
对于导叶式离心泵而言,导叶相对蜗壳隔舌的时序效应对泵的水力性能、压力脉动和流致噪声有较大的影响。本文选取比转速为112的导叶式离心泵为研究对象,分别基于SST k-ω湍流模型和声学边界元方法对泵的流场和声场进行数值计算,探讨不同流量工况下离心泵的时序效应,为离心泵中径向导叶的相对位置确定提供参考依据。本文主要研究内容如下:(1)定义时序位置无量纲系数(C_L)来表征泵中导叶相对隔舌的不同时序位置,
当今国际竞争日趋激烈,越来越多的企业期望通过并购手段,来迅速扩充企业规模,提升企业竞争力。对于企业并购绩效的研究随之也成为财务领域的热门话题。近年来,在我国大数额的跨境并购主要由国企主导,但最后的结果大都不尽如人意。而本文所研究的SL对RJ的跨境并购,是近年来唯一一起相对成功的国有企业大金额并购案例。本文运用平衡计分卡的方法,从财务维度、顾客维度、内部流程维度以及学习与成长维度对SL酒店并购RJ酒
在现代汉语口语表达中,表职业、职务义的“搞/做/干+X+的”构式群组中的三个子构式属于近义构式,作为常项的泛义动词“搞”“做”“干”有时能够互相替换使用,有时却不能互换,其中的变项“X”也有各自的限制条件,对此,既有研究往往语焉不详,教材及辞书也未对三者进行区分,这就使留学生经常混淆三个子构式的用法从而产生偏误。因此,本文借鉴构式语法理论、三个平面理论以及认知语言学相关理论,尝试归纳三个子构式之间
汉代社会,从汉武帝开疆扩土、文治武功起,就迫切需要有一种思想形态与大一统的专制制度相适应。自董仲舒建立“天人感应”的神学目的论起,到“石渠阁会议”将神学宇宙观以官学的形式确立下来,再到《白虎通义》的最终形成,整个社会笼罩在神学体系之下。东汉时期,谶纬迷信兴起,社会上更是充斥着各种五花八门的虚妄和谎言。应时代之需,王充以其非凡的斗争勇气,本着求实的精神,高举“疾虚妄”的批判大旗,坚持唯物主义的认识论
阅读是语言学习不可缺少的一部分。《高中英语新课程标准(2018)》强调培养学生的听、说、读、看、写能力。阅读能力作为英语学习中的五项技能之一,对其他四项技能的发展起着重要作用。随着《高中英语新课程标准(2018)》的出版,英语阅读课的导入应用引起了人们的极大关注。一个有效的导入可以大大提高教学效果,一个有趣的导入应用在英语阅读课上可以激发学生学习英语的兴趣。虽然导入持续时间很短,但在英语阅读课中起
悬索桥是大跨度桥梁中最经济、最美观和最具有竞争力的桥型。在其使用年限内会遭受不同形式的自然灾害,其中地震造成的破坏和损失较为严重。非线性有限元法作为一种模拟悬索
手性烯丙基化合物是有机合成中一类十分重要的中间体,其合成在近些年来受到广泛的关注。而过渡金属催化的不对称烯丙基化反应是用于快速构建具有立体中心的烯丙基化合物最重要和最有效的方法之一,在有机合成领域发展十分迅速。其中,酮的α-位不对称烯丙基化反应,是该领域中一个重要的研究方向。协同催化是指两种不同催化剂相互协作且互不干扰分别活化两种不同底物的催化策略。采用此策略可降低反应的活化能,实现单一催化剂无法