论文部分内容阅读
随着高通量测序技术的快速发展,研究者们可以对来自不同组别的人类个体的基因组进行测序,以研究组别间个体的差异。目前的遗传学研究,尤其是全基因组关联研究[genome-wide association study(GWAS)],已经辨识出了 一些与人类神经精神障碍相关的单核苷酸变异[single nucleotide variation(SNV)]和拷贝数变异[copy number variation(CNV)],但是因为辨识出的SNV通常落入到基因间区,CNV也通常跨越多个变异或者多个基因,所以要辨识出在这些关联底下真正的致病基因仍然很困难。直接测量和分析神经精神障碍影响的主要器官,即大脑的基因表达量,可以促进揭示调节性的遗传变异对基因本身和对其他基因表达量的影响,为研究神经精神障碍提供新视角。同样的,对于正常的大脑活动,比如衰老现象,也可通过对人脑基因表达量的分析来评估年龄和基因表达之间的潜在关系。RNA-seq是使用深度测序技术对转录组进行测序的方法,它的使用可以让我们能准确地、定量地测定基因转录产物mRNA,从而衡量基因的表达水平。目前逐渐增加的人类大脑区域的组织样本,使得我们对人脑的组织样本进行RNA测序,分析其中的基因表达水平,进而对正常大脑衰老和对神经精神障碍的深入研究成为可能。目前基于基因表达量信息来研究不同组别个体(疾病组和对照组,或者不同年龄组)的差异时,大多文献主要关注的是组别之间表达量均值的差异,即差异表达[differential expression(DE)]分析,但这会模糊或者忽视组别内部的异质性,从而忽略组内具有可变表达的基因。尤其是对于复杂的具有表型和遗传异质性的疾病而言,DE分析会容易忽视导致在受疾病影响群体或者样本群中表达变动性的遗传异质性。差异变化[differential variability(DV)]分析方法的提出正是用于捕获组别之间表达变化性的差异,即检测组别之间表达量方差有显著差异的基因。另一方面,由于基因之间通常是相互联系的,我们也需要检测与所研究的现象或者疾病相关的基因集,这些基因集在不同组别间的多基因表达模式有显著的不同。为了研究衰老现象和神经精神障碍,以多变量的形式对基因表达量数据进行分析的方法种类仍不够多,本文的主要研究内容是基于对多基因表达模式的分析,来识别与衰老和神经精神障碍相关的基因集合。1.衰老改变人脑的基因表达模式为了研究大脑基因表达和年龄之间的潜在关系,我们分析了 Genotype-Tissue Expression(GTEx)中大脑13个区域组织样本的基因表达量数据。对每个大脑区域,我们辨识出表达量与年龄相关的蛋白质编码基因。我们还使用分散特异性分析,辨识出表达量随着衰老而有差异分散性的基因和基因集。我们的结果表明年龄相关的基因表达是大脑区域特异的,与表达量的均值和分散程度的变化相关。2.单疾病的异常基因表达分析为了辨识与具有表型和遗传异质性的疾病,比如自闭症[autism(AUT)]相关的基因集,我们提出了异常基因表达分析方法。我们分析了 AUT和对照组大脑样本的基因表达量数据,识别出54个功能基因集和76个共表达模块,其表达分散在AUT样本中比在对照组中更显著。我们还使用全血表达量数据,识别出表达水平可以作为AUT诊断的三个异常表达基因集,其分类准确度均在70%以上。此外,我们开发了一个网络平台和一个软件工具,用于辨识与疾病相关的基因集。3.多疾病间共有基因集的识别为 了研究 AUT,精神分裂症[schizophrenia(SCZ)]和躁郁症[bipolar disorder(BPD)]之间的遗传重叠性对基因表达量的影响,我们使用了两种不同的多变量分析方法,即共表达网络分析和异常基因表达分析。我们基于对AUT,SCZ和BPD疾病样本和对照样本的基因表达量信息的分析来识别疾病之间共有的基因集,从而研究AUT,SCZ和BPD基因表达的相关性。基于对基因表达模式的分析,本文辨识与衰老现象或复杂神经精神障碍相关的基因和基因集合。在衰老影响人脑基因表达的研究中,我们不仅考虑了基因表达量的均值,还考虑了基因表达的分散程度,在研究与年龄相关的神经退行性疾病中为更复杂的基因表达模型的探究建立基础。在对神经精神障碍进行基因表达分析中,我们不仅使用了较为传统的基因共表达网络分析,也提出了异常基因表达分析方法,考虑了受疾病影响群体内的表达异质性,我们的研究为探究受疾病影响个体中失调的基因表达量底下的遗传和分子机制提供新的观点。