论文部分内容阅读
多发性硬化症是一种由免疫系统介导的神经退行性疾病。它以发生在中枢神经系统中的炎性反应和脱髓鞘病变为主要特征。根据最新的调查结果,截止2013年,全世界大约有230万人罹患多发性硬化症。目前,长非编码RNA(lncRNAs)被认为是一种在多发性硬化症的分子机制中起着重要作用的调控因子。并且,已经有少数几个与多发性硬化症相关的lncRNAs以及它们在疾病中的作用被一些分子生物学实验所确认(比如:linc-MAF-4、NeST和lnc-OPC等)。另一方面,以往的全基因组关联分析研究还发现了大量的与多发性硬化症显著相关的单核苷酸多态性(SNPs)位点。然而,尽管人们已经围绕多发性硬化症的分子机制进行了广泛的探索,但是对于涉及到基因组非编码区域的突变和转录调控对多发性硬化症所起作用方面的知识还了解的很少。此外,与其它的一些复杂性疾病(比如:癌症)相比,被确认的与多发性硬化症相关的lncRNAs的数量以及对于它们在疾病中的功能的认识还显得非常不足。因此,在本研究中,我们首先基于RNA-seq数据,对多发性硬化症中SNPs位点的突变对lncRNAs的影响情况,在全基因组范围内进行了系统性的分析。然后,基于已知的与多发性硬化症显著相关的SNPs位点等信息以及连锁不平衡原理,我们设计了一套分析流程去预测新的潜在多发性硬化症相关的lncRNAs。接下来,我们使用了一种基于表达量的meta分析方法去整合来自不同实验的RNA-seq数据,以验证之前的预测发现,并进一步探索这些lncRNAs在多发性硬化症中可能的功能。最后,我们利用了与多发性硬化症相关的scRNA-seq数据,通过单细胞转录组分析,对这些lncRNAs在少突胶质细胞中的功能和分布情况进行探索。具体内容如下:
第一,我们使用了一个基于生物信息学的策略,从RNA-seq数据出发,在全基因组范围内,同时获得来自同一个样本的lncRNAs表达量数据和SNPs位点分型数据。这些样本来自51个多发性硬化症患者和91个作为对照的健康个体。基于这两组数,我们进行了表达数量性状基因座(eQTL)分析。我们一共得到了2383个在多发性硬化症患者和对照组之间显著差异表达的lncRNAs。这些lncRNAs在脑组织中特异性的表达,并且它们中的517个的表达量会被定位在其序列中或邻近的SNPs位点的突变所显著影响。然后,我们评估了这些顺式eQTL SNPs位点的功能特征和疾病特异性,以及相应lncRNAs的二级结构受到它们影响的情况。结果显示,这些顺式eQTL的SNPs位点仅会显著特异性地富集在基因间区域以及中枢神经系统类疾病(包括多发性硬化症)相关的SNPs位点集合中。并且,这些SNPs位点也会显著地改变大约17.6%的表达量受其影响的lncRNAs的二级结构。
第二,基于以上的研究结论,我们利用全基因组关联分析研究确定的已知与多发性硬化症显著相关的SNPs位点以及连锁不平衡原理,预测新的潜在与多发性硬化症相关的lncRNAs。我们从4个权威的数据库中一共收集了12025个与多发性硬化症相关的SNPs位点,并使用HaploReg工具找到与之处于强烈连锁不平衡中的111581个非编码SNPs位点。然后,根据之前的研究结论,我们对这些SNPs位点进行注释,并去除了其中不属于基因间区域的49218个位点。剩余的这些非编码SNPs位点中,有2855个定位于1430个lncRNAs的转录本区域。最后,我们通过计算最小自由能变化的方法,评估了这些SNPs位点对相应lncRNAs转录本二级结构的影响。结果显示,一共有374个lncRNAs的二级结构会被相应的438个SNPs位点显著地改变。我们定义它们为与多发性硬化症相关的候选lncRNAs。
第三,我们通过整合大规模的RNA-seq数据,验证这些候选lncRNAs与多发性硬化症之间的关系,并进一步探索它们在疾病中的功能。我们首先从3个权威的数据库中收集了目前为止所有多发性硬化症相关的人类RNA-seq数据,并计算出每个样本中lncRNAs的表达量。经过质量控制,我们保留了59428个被定量的lncRNAs转录本,它们包含了173个候选lncRNAs的转录本。然后,我们使用了一种基于表达量的meta分析方法整合这些数据并进行差异表达分析。我们发现有35个候选lncRNAs转录本在多发性硬化症患者和对照组间显著差异表达。它们被定义为潜在多发性硬化症相关的lncRNAs。基于超几何分布评价的结果显示,我们提供的这套分析方法对发现新的潜在与多发性硬化症相关的lncRNAs是有效的。最后,通过加权重基因共表达网络分析、邻近基因和eQTL分析、以及基因集富集分析,我们发现这些潜在多发性硬化症相关的lncRNAs在疾病中的功能可能与脂肪酸和类固醇代谢的调控有关。
第四,我们使用了一组小鼠的scRNA-seq数据集,进一步探索之前发现的这些潜在多发性硬化症相关的lncRNAs在少突胶质细胞及其亚群中的功能和分布情况。通过对lncRNAs在单细胞水平上的定量,以及基于层次聚类和tSNE降维的细胞亚群分析,我们发现少突胶质细胞在lncRNAs表达量的层面上可以分为4个细胞亚群。然后,我们在各个细胞亚群中对lncRNAs进行了差异表达分析,以及在人类和小鼠lncRNAs之间进行了序列同源性分析。结果显示,有5个潜在多发性硬化症相关的lncRNAs在3个少突胶质细胞的亚群中被显著下调。最后,结合之前的基因集富集分析的结果,我们推测这些潜在多发性硬化症相关的lncRNAs在少突胶质细胞中对疾病的作用可能与脂肪酸的代谢和髓鞘的形成有关。
综上所述,本课题提供了一个分析流程,并预测发现了新的潜在与多发性硬化症相关的lncRNAs。同时,本课题第一次研究了多发性硬化症中SNPs位点上的突变在全基因组范围内对lncRNAs的影响。并且,本课题第一次研究了多发性硬化症相关的lncRNAs在少突胶质细胞中的特征。这些发现会对更好的理解多发性硬化症的分子机制有所帮助。
第一,我们使用了一个基于生物信息学的策略,从RNA-seq数据出发,在全基因组范围内,同时获得来自同一个样本的lncRNAs表达量数据和SNPs位点分型数据。这些样本来自51个多发性硬化症患者和91个作为对照的健康个体。基于这两组数,我们进行了表达数量性状基因座(eQTL)分析。我们一共得到了2383个在多发性硬化症患者和对照组之间显著差异表达的lncRNAs。这些lncRNAs在脑组织中特异性的表达,并且它们中的517个的表达量会被定位在其序列中或邻近的SNPs位点的突变所显著影响。然后,我们评估了这些顺式eQTL SNPs位点的功能特征和疾病特异性,以及相应lncRNAs的二级结构受到它们影响的情况。结果显示,这些顺式eQTL的SNPs位点仅会显著特异性地富集在基因间区域以及中枢神经系统类疾病(包括多发性硬化症)相关的SNPs位点集合中。并且,这些SNPs位点也会显著地改变大约17.6%的表达量受其影响的lncRNAs的二级结构。
第二,基于以上的研究结论,我们利用全基因组关联分析研究确定的已知与多发性硬化症显著相关的SNPs位点以及连锁不平衡原理,预测新的潜在与多发性硬化症相关的lncRNAs。我们从4个权威的数据库中一共收集了12025个与多发性硬化症相关的SNPs位点,并使用HaploReg工具找到与之处于强烈连锁不平衡中的111581个非编码SNPs位点。然后,根据之前的研究结论,我们对这些SNPs位点进行注释,并去除了其中不属于基因间区域的49218个位点。剩余的这些非编码SNPs位点中,有2855个定位于1430个lncRNAs的转录本区域。最后,我们通过计算最小自由能变化的方法,评估了这些SNPs位点对相应lncRNAs转录本二级结构的影响。结果显示,一共有374个lncRNAs的二级结构会被相应的438个SNPs位点显著地改变。我们定义它们为与多发性硬化症相关的候选lncRNAs。
第三,我们通过整合大规模的RNA-seq数据,验证这些候选lncRNAs与多发性硬化症之间的关系,并进一步探索它们在疾病中的功能。我们首先从3个权威的数据库中收集了目前为止所有多发性硬化症相关的人类RNA-seq数据,并计算出每个样本中lncRNAs的表达量。经过质量控制,我们保留了59428个被定量的lncRNAs转录本,它们包含了173个候选lncRNAs的转录本。然后,我们使用了一种基于表达量的meta分析方法整合这些数据并进行差异表达分析。我们发现有35个候选lncRNAs转录本在多发性硬化症患者和对照组间显著差异表达。它们被定义为潜在多发性硬化症相关的lncRNAs。基于超几何分布评价的结果显示,我们提供的这套分析方法对发现新的潜在与多发性硬化症相关的lncRNAs是有效的。最后,通过加权重基因共表达网络分析、邻近基因和eQTL分析、以及基因集富集分析,我们发现这些潜在多发性硬化症相关的lncRNAs在疾病中的功能可能与脂肪酸和类固醇代谢的调控有关。
第四,我们使用了一组小鼠的scRNA-seq数据集,进一步探索之前发现的这些潜在多发性硬化症相关的lncRNAs在少突胶质细胞及其亚群中的功能和分布情况。通过对lncRNAs在单细胞水平上的定量,以及基于层次聚类和tSNE降维的细胞亚群分析,我们发现少突胶质细胞在lncRNAs表达量的层面上可以分为4个细胞亚群。然后,我们在各个细胞亚群中对lncRNAs进行了差异表达分析,以及在人类和小鼠lncRNAs之间进行了序列同源性分析。结果显示,有5个潜在多发性硬化症相关的lncRNAs在3个少突胶质细胞的亚群中被显著下调。最后,结合之前的基因集富集分析的结果,我们推测这些潜在多发性硬化症相关的lncRNAs在少突胶质细胞中对疾病的作用可能与脂肪酸的代谢和髓鞘的形成有关。
综上所述,本课题提供了一个分析流程,并预测发现了新的潜在与多发性硬化症相关的lncRNAs。同时,本课题第一次研究了多发性硬化症中SNPs位点上的突变在全基因组范围内对lncRNAs的影响。并且,本课题第一次研究了多发性硬化症相关的lncRNAs在少突胶质细胞中的特征。这些发现会对更好的理解多发性硬化症的分子机制有所帮助。