基于人群特有变异的人群分层分析的新方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wushiguo208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联分析在人类全基因组范围内检验单核苷酸多态性(Single Nucleotide Polymorphism,SNP),确定与疾病相关的SNPs。人群分层是全基因组关联分析的重要混杂因素之一,会导致假阳性结果。随着测序技术的发展,越来越多的人群被测序,用以研究世界各地人群的历史,包括人群的分离、混合、迁移和大小。在千人基因组项目(1000 Genomes Project,1k GP)和人类基因组多样性项目(Human Genome Diversity Project,HGDP)的测序数据中,大多数的SNPs是罕见SNPs,而且是人群特有的。人群特有SNPs通常是最近的变异,包含着丰富的亚人群结构信息和人群的混血信息,有可能可以更好地用来校正人群分层。但是,目前尚没有算法和软件有效利用人群特有变异数据当中的人群结构信息。在本论文中,我们选用1k GP和HGDP数据中的人群作为参考人群,选取了两组人群特有的参考SNPs,提出了三个分析算法:(1)基于人群特有变异的PCA算法,构造出人群特有的遗传关系矩阵,在参考人群中该遗传关系矩阵的特征值和特征向量是人群特有的,相比于传统PCA算法构造出的遗传关系矩阵的特征向量,人群特有的特征向量可以更好地区分人群结构。(2)基于人群特有变异的主成分得分向量法,将研究样本的基因型矩阵投影到参考人群定义的渐近主方向上,并证明该主成分得分是祖源比例的无偏估计。(3)基于人群特有变异的祖源信息向量法,提出了祖源信息向量,即祖源比例的最佳线性无偏估计,用于推断近代混血人群的祖源比例。主成分得分向量和祖源信息向量可以用来检测遗传离群个体、分析研究样本和参考人群之间的祖源关系、衡量把参考人群当作研究样本的祖源人群的有效性。与基于主成分分析的方法中的特征分解或奇异值分解不同,也与已有的基于模型的方法中的似然模型求解不同,计算主成分得分向量和祖源信息向量只需要人群特有变异的最小等位基因频率,计算复杂度低。基于同一组人群特有的参考SNPs,不同研究样本的祖源信息具有可比性,而且不受遗传离群个体、有亲缘关系的样本和分析人群样本量大小的影响。我们将提出的新算法实现为祖源谱分析仪(Ancestral Spectrum Analyzer,ASA)软件,利用该软件我们分析了基于1k GP和HGDP的5个数据集。结果表明这三个新算法对于分析人群特有变异数据是有效的;和常见变异相比,人群特有变异包含更为丰富的人群结构信息。
其他文献
科技助力教育,网络技术的发展使得在线学习的应用越来越广泛并逐渐成为一种大众广泛认可且采用的学习方式。但随之而来的海量学习资源使得学习者难以快速明确自己的学习方向,容易陷入“信息迷航”,“认知过载”等,从而导致学习效率低下,针对性差等问题。如何向在线学习用户推荐适合自身的学习资源,在帮助学习者进一步掌握所学知识的基础上提高用户的学习效率是目前在线学习平台亟待解决的问题。个性化推荐算法是根据用户的历史
学位
集成电路中的封装焊点起着电气连接、机械保护、提供散热途径等作用,是保障电路发挥正常功能和保证高可靠性的关键。电路中的任何一个焊点发生失效,都有可能会导致电路断路使得系统崩溃或者元器件连接不稳定发生脱落。由于电路本身的工作特性和复杂工作环境,以及焊点和其余组件材料的限制,焊点处容易因疲劳或脆性断裂产生裂纹,导致焊点失效。现有研究大多以电阻测量、电子显微镜观察等试验手段对焊点裂纹进行研究,缺少针对焊点
学位
随着工业互联网的发展,工厂内网络呈现出融合、开放、灵活三大发展趋势。工厂内的车间级网络和现场级逐步融合,高实时控制信息和非实时数据可共网有效传输。以时间敏感网络为代表的新型网络技术打破了传统工业网络众多技术壁垒,促进工业全流程数据的实时传输。得益于种种技术,智能工厂控制平台得以与现场工业设备打通信息传递的桥梁。现存的手动排产优化方式已不能和信息获取的速度相匹配,需要进行智能化排产。然而,工厂生产情
学位
频率选择表面(Frequency Selective Surface,FSS)是一种由谐振单元按二维周期性排列构成的单层/多层平面/立体结构,它对电磁波具有频率选择特性,在飞行器雷达隐身领域中有着广阔的应用。随着电磁工作环境日益复杂多变,需要主动切换或改变工作频带等电磁特性来适应外部环境变化的需求。另一方面,雷达探测技术的快速发展也使得带内透波带外吸波的吸波/透波一体频率选择表面(Absorpti
学位
血压升高是造成全球疾病负担和全球死亡率的最大单一风险因素。高血压作为一种遗传性疾病,从基因层面探究其致病机理,对于减少高血压发病率,减轻家庭及社会负担都极具意义。全基因组关联分析(Genome-wide Association Study,GWAS)在复杂性状遗传学、疾病的生物机理研究领域都取得了重大发现。截止到2022年1月,所有已知的GWAS变体加在一起仅解释了血压(Blood Pressur
学位
<正>2022年9月30日至10月5日,由中共北京市委宣传部、中共福建省委宣传部、中共宁夏回族自治区委员会宣传部和国家大剧院联合出品,国家大剧院制作的原创民族歌剧《山海情》在国家大剧院歌剧院进行了首轮演出。该剧反映了我国在全面建成小康社会的伟大征程上所取得的脱贫攻坚、乡村振兴历史性成就,讴歌了自强不息的人民与党的基层干部深沉的赤子心与家国情,堪称一部党领导人民推进伟大社会革命的当代史诗。笔者有幸现
期刊
分数阶微积分是对整数阶微积分的自然推广,实际工程应用对控制系统性能要求日益严格,采用分数阶微积分建立数学模型能更完整的描述系统特性,具备独特的优势,而复杂的工作环境、建模不够准确等因素给系统带来了不可避免的不确定性,因此分数阶不确定系统已经成为控制领域的研究热点。本文针对阶次为1<α<2的分数阶不确定系统,同时考虑多胞不确定和范数不确定对系统稳定性的影响,具体内容如下:1.对该类分数阶不确定系统进
学位
歌剧《山海情》是根据同名电视连续剧《山海情》创作出来的一部民族歌剧。作品注重时代性、多样性、观赏性、共情性,有着明确的主流价值导向等,展现了西海固人民群众在国家的对口扶贫政策下脱贫攻坚并最终收获美好生活的故事。歌剧戏剧语言丰富多彩,音乐旋律动听且富有民族特色,大量引用“花儿”等民族元素,演员运用民族方言对白,叙事手法以线带面,人物形象鲜明,是一部新时期歌剧舞台佳作。
期刊
拓扑优化设计是指在已知结构材料相关参数、且边界条件和载荷条件等满足给定要求的情况下,通过优化算法在设计域中求寻结构材料的最佳分布。拓扑优化设计结果能够在产品设计初期为设计师提供重要参考,进而影响到产品最终的结构外形。在近几十年来,拓扑优化设计的相关理论及方法研究迅猛发展,业已成为结构设计领域的研究热点之一,许多拓扑优化设计方法已相继被提出并被证明是行之有效的,如变密度方法、水平集方法、进化结构优化
学位
针对“药物检验技术”课程老旧教学模式存在的问题进行系列改革,校企联合组建多元化教学团队,在重组教学内容、创设“三阶五步”教学模式、灵活选用教学方法、挖掘药检思政元素、完善课程标准等方面进行了有效探讨。经过三届学生的实践,在学生的学习成效、以赛促教、课程应用推广等方面取得了较好的成效。
期刊