全基因组关联分析中SNP数据补缺算法研究与实现

被引量 : 0次 | 上传用户:longlivewebdynpro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2005年全基因组关联分析(GWAS)的成果首次发表,在过去的10年中随着SNP(Single Nucleotide Polymorphism)测序技术的快速发展,全基因组关联分析已逐步在物种重要经济性状、植物育种、基因改良以及人类复杂疾病等方面有所建树,成为一种重要的研究手段。目前已有许多方法可用于SNP检测,但是由于相关技术的约束,无论用哪种检测方法所测出的SNP数据均是带有缺失值的,重新检测则会耗费大量的时间与成本,若对这些缺失值置之不理则会影响后面的GWAS工作。隐马尔可夫模型(HMM)在生物信息学中应用的范围越来越广泛,和其它模型相比,HMM具有应用弹性大、适用范围广、参数往往具有现实意义的特点,本文中的算法所建立的模型就是应用上述特点所改进过的HMM,是一种非齐次的HMM,即状态的转移概率不仅和前一时刻的状态有关还与具体的时刻有关,所以对相应算法,前向-后向算法,Viterbi算法进行了合理且必要的调整以适应改进后的模型。本文通过对HMM的研究以及对现有补缺算法的分析,提出了一种基于HMM的高效、快速的补缺方法。本算法的特点是补缺时所需的生物学信息少,运行速度快,适合对动、植物SNP的单体型数据进行补缺,算法首先建立SNP数据补缺问题与HMM的映射关系,然后利用SNP位点间的连锁不平衡度可以很好地反映出SNP位点间的关系的特点,以更快的速度计算出合理的HMM参数,再把数据补缺问题转化成HMM的解码问题,从而以更快的速度进行缺失数据的补缺,最后通过用不同的有效性对补缺的结果进行评价。本文提出一种在没有参考数据集条件下的补缺算法,该算法合理利用了有限的数据信息和SNP位点间的连锁不平衡性,利用滑动窗口的方式对包含缺失位点在内的窗口中的单体型的频率进行估算,选取最有可能的单体型进行缺失位点补缺,本算法适用于对尚未建立参考数据集生物的SNP数据进行补缺,且补缺的正确率随着SNP位点间的连锁程度的提高而提高。
其他文献
2018年,全省上下贯彻省委、省政府决策部署,全力推进乡村振兴战略实施,加快推进农业绿色发展,稳步推进农业农村改革,以推进农业供给侧结构性改革为主线,全省农业产业化龙头企
随着信息技术的迅猛发展与普及,将信息技术融入、渗透到各学科教学中已成为各国学校教育中的普遍趋势。幼儿教育是基础教育的重要组成部分,是学校教育和终身教育的奠基阶段。
目的探讨血清25-羟维生素D3水平与老年2型糖尿病(T2DM)患者周围神经病变的相关性。方法选择2014年3月至2016年1月海南医学院第二附属医院收治的老年T2DM患者97例,依据是否合并
战略控制是战略目标实现的关键环节,厘清战略控制的基本问题是实施战略控制的首要条件。研究型大学战略控制是研究型大学内部诸要素之间相互作用的复杂体系,具有与其他类型控
国有企业改革30年来,推动"走出去"战略的过程虽跌宕起伏,"走出去"战略仍然取得了重要成就。特别是入世后的十多年来,我国大型国有企业通过多元化开拓海外市场、加快推进外资
随着我国经济的发展、技术的进步,人口与土地之间、城市与乡村用地之间矛盾的凸显,村镇的土地利用越来越受到广泛关注。自古以来,村镇受经济、政策和社会资源的限制,地广人稀
目的:研究伴甲状腺发育不全的先天性甲状腺功能减低症(congenital hypothyroidism,CH,简称先天性甲低)患儿PAX8和HHEX基因突变类型和特点,并初步探讨PAX8突变导致甲状腺发育
以全国著名特级教师窦桂梅经典课例为研究对象,通过对其名家名篇"文本特点""教学内容""课程价值"的探索与追求分析,指出名家名篇课堂教学在小学语文课程中的功能定位,从而引
目的探索BAFF基因多态性与重症肌无力(MG)的易感性和严重程度的相关性。方法选取BAFF基因8个位点(rs10508198,rs12428930,rs16972197,rs3759465,rs9514828,rs3783117,rs16972
背景丙型肝炎病毒(h e p a t i t i s C v i r u s,H C V)是感染人体后,导致肝细胞损伤,继而引起肝脏炎症、变性、坏死,甚至终末期肝病,如肝硬化、肝癌等。这除与感染H C V病