基于新一代测序技术的关联分析研究和群体结构理论

来源 :复旦大学 | 被引量 : 1次 | 上传用户:Oom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新一代的高通量全基因组测序技术能够有效地探测出整条染色体的所有遗传变异,从而绘制出全基因组的变异图谱,是全面而系统地探测群体内常见变异(MAF>5%)、低频变异(0.5%<MAF≤5%)和自有变异(MAF≤0.5%)的强有力工具。千人基因组计划,正是采用了新一代测序技术,致力于检测出MAF=1%水平的群体遗传变异,作为未来关联分析的基础,提供包含单核苷酸多态性(SNP)、插入缺失(INDEL)和拷贝数变异(CNV)在内的生物遗传信息,是目前为止最大规模、测序覆盖密度最高的全基因组测序数据。面对如此丰富的数据资源,我们进行了大量的工作,根据课题的进度,主要分为两个阶段,其中不少研究成果已经整理并发表。第一阶段的工作,我们主要研究了新一代高通量测序技术下疾病关联分析的特点。在过去十多年,典型的全基因组关联分析只考虑了常见变异的情况,而用以检验低频变异和自有变异的方法及相关研究却还没有得到很好地发展。为了寻求突破,我们使用千人基因组计划的常染色体的单核苷酸多态性数据作为下一波关联分析方案设计的参考基础,从低频变异领域出发,探讨未来的全基因组关联分析新的时代,现有的关联分析研究方法是否依然有效可用,针对疾病关联分析应该如何制定新的不同研究方案。我们首先研究low coverage pilot中常见SNP、低频SNP之间的连锁不平衡模式,图解说明与过往常见SNP截然不同的连锁不平衡分布模式。我们发现低频SNP与低频SNP之间的连锁不平衡,和低频SNP与常见SNP之间的连锁不平衡都比常见SNP与常见SNP之间的连锁不平衡要弱得多。其次,我们又设计了一系列的SNP标签实验,说明了由于弱连锁不平衡,使得我们无法再用传统的芯片设计那样,通过标签出一系列的SNP组成一个新的检测芯片以达到覆盖所有已知位点的目的。我们的实验是假设将low coverage pilot检测出的所有的SNP都作为“虚拟芯片”(Pilot 14M)的标签位点,我们发现即使如此,Pilot14M也无法全部覆盖到exon pilot中那些随着群体样本改变而层出不穷的低频位点信息,我们还考虑了对缺失数据进行插补的情况,但仍然观察到有45.4%的低频SNP无法被虚拟芯片所检测出,Pilot 14M对低频SNP的覆盖率仅仅只有67.7%。最后我们采用exon pilot中CEU人群的随机外显子区域数据集,将Pilot 14M、Illumina 1M和全基因组测序技术并列计算出它们在疾病与潜藏位点关联分析时不同的效能表现。我们一共设计了4种疾病遗传模型,制定了一系列的参数策略方案,通过数据模拟,分别计算了不同情况下对于潜在致病位点的检测效能。我们发现在常见SNP领域,传统基因分型芯片的检测效能够达到疾病关联分析的要求,但在低频SNP领域,即使将研究样本模拟到一个很大的数量,传统基因分型芯片的检测效能不是非常乐观,无法达到全基因组测序技术同样的高度。为了说明实验结果的群体普遍性,我们也对CHD人群进行了同样的研究步骤,结果是一致的。我们的结论是基于已知SNP序列而设计的全基因组关联分析方式都将不能适用于低频SNP领域,对于新一代全基因组的测序数据,我们需要制定新的策略,使用新的方法来进行与低频SNP相关的关联分析研究。第二阶段的工作,我们主要研究了新一代高通量测序技术下群体遗传分析的特点。千人基因组计划为揭示人群遗传可变性的分布、鉴别人群结构和推断自然人群的人口演变历史提供了丰富的资源,但新的测序技术也带来新的挑战,主要体现在三个方面:测序误差、组装错误和数据缺失。流行的群体遗传分析手段是主成分分析(PCA),它对数据的异常值和缺失值都非常敏感,因此,我们将流形学习的局部线性嵌入方法引入到群体遗传分析中,局部线性嵌入能够很好地克服维数灾难,揭示出隐藏在高维数据空间的低维流形群体结构。我们采用了丰富多样、各具特色的群体遗传数据,从大洲群体到祖孙三代家系,详细讨论了局部线性嵌入在刻画群体结构特征的独到之处。我们发现通过相邻点的信息对数据点进行重构,能够有效地克服异常值和数据缺失,我们还留意到将高维数据映射到低维空间的表达时能够对群体分类体现出一种“群体特征向量”的新的概念,我们又从数学层面论证了主成分分析和局部线性嵌入的联系,我们尝试提出在群体结构分析方面,局部线性嵌入是一种比主成分分析更为优胜的分析手段。接下来,我们以局部线性嵌入为通用的群体遗传分析框架,并发展了一种新的统计量,将整条染色体区域等分切割,将区域内所有遗传变异信息进行整合,结合计算得到群体特征向量,套用LASSO回归分析,进一步讨论和传统的区域富集分析手段(如fisher exact test)的不同之处。我们采用low coveragepilot数据集,以CEU群体为例,分别得到这两类方法在CEU群体特征向量下的显著关联位点或者区域。对于常见SNP,我们分别在CEU、YRI和ASI人群中观察到25.1%、44.9%和21.4%的与群体特征向量显著关联的位点,而在低频SNP领域,显著位点所占的百分比更加高,分别有89.2%,92.4%和75.1%,说明了绝大部分的低频SNP具备群体结构信息,而且从低频SNP比常见SNP在所有位点占有比例更高的现象来看,我们推断低频变异是形成近代群体的主要因素。我们还使用了自然选择方式,同样得到群体内一系列与群体整体差异度较大的染色体区域,与LASSO方式显著关联区域一起,我们抽查了几个典型染色体区域,比较它们在等位基因频率分布和连锁不平衡模式上的特征。我们初步发现与群体特征向量显著相关的区域往往存在着其对应群体有着区别其它群体的更强的连锁不平衡现象。
其他文献
人们对心智模式的关注是从心理学开始的,在彼得·圣吉把心智模式引入管理学后,跨学科的研究丰富了心智模式的概念内涵,但不可避免的导致了概念界定的不清晰,这给心智模式的实证研
聚甲基丙烯酰亚胺(PMI)泡沫是一种轻质、具有100%闭孔结构、耐温性能高的刚性泡沫塑料。现行PMI泡沫的制备主要采用单体(丙烯腈/甲基丙烯腈,丙烯酸/甲基丙烯酸)在低温条件下
六味地黄丸是由六味不同的单味药组成的复方制剂,包括熟地黄、山药、山茱萸三味补药和牡丹皮、茯苓、泽泻三味泻药。具有滋阴补肾等功效。在治疗或辅助治疗多种疾病及身体亚健
对于现在的政府机构和企事业单位,由于计算机网络的迅速普及,信息化程度的快速提高,基于Web的网络应用已成为它们办公和开展各项业务所必不可少的一部分,而这些应用都是基于
近年来,学界对高等职业教育的培养目标展开了大量细致的研究和探讨,在课程体系的设置上逐步加大实践环节的比重。法学专业的应用性和实践性在高职类院校培养的法律人才身上得
第一部分弥漫性泛细支气管炎的CT诊断目的:提高弥漫性泛细支气管炎的CT诊断及鉴别诊断能力。材料与方法:回顾性分析我院2001年~2011年收治的92例弥漫性泛细支气管炎的CT表现。
自我国高校开始扩招以来,我国大学毕业生数量呈现逐年增多的趋势,而大学毕业生数量的增多和就业岗位的饱和之间形成了矛盾,导致大学生经过多年的专业学习后无处可去。针对这
目的 探讨剖宫产瘢痕妊娠不同分型治疗方案的选择。 方法 收集2012年1月至2018年12月我院妇产科收治的剖宫产瘢痕妊娠(CSP)患者的临床资料85例,回顾性分析其诊断及治疗。 结
本文以中国当代尤其是近三十年来的文学现象为研究视点,将作为美学观念的“丑”的发展演变为基本脉络,从对历史与宏观视野的考察和逻辑梳理开始,揭示了中国当代文学中所展现