论文部分内容阅读
随着国际人类基因组计划的完成,以及高通量基因分型技术的快速发展,人类遗传学研究进入了一个新的发展时期。同时,全基因组关联研究的发展,为研究人类性状/复杂性疾病揭开了新的序幕。上位性是指两个或多个基因(或单核苷酸多态性)之间相互作用对表型的影响。上位性作为复杂性状遗传研究体系的一个重要组成部分,近年来受到了广泛关注,大量算法被应用于解决上位性检测问题。但是针对全基因范围内的、大规模的数据来说,现有的算法仍存在检测准确率较低、假阳性较高等问题。本文主要致力于研究全基因组案例-对照研究中的上位性检测算法。针对现有基于马尔可夫覆盖两步法的上位性检测算法存在假阳性较高,样本有效性较低等不足,本文提出了一种新的用于全基因组关联研究中的上位性检测算法——IMBED(Improved Markov Blanket for Epistasis Detection)算法。该算法将G2作为衡量变量之间关联性强度的标准,设计了移除变量个数的计算公式,通过有效地移除与目标变量无关的和关联性弱的变量,减小了搜索空间。实验结果表明该算法有较好的检测效果,减小了假阳性,一定程度上提高了样本有效性,能够用于全基因范围的数据。为了克服两步法检测效率和样本有效性不够高的情况,本文基于马尔可夫覆盖分治法,提出了一种新的上位性检测算法——PCED(Parents and Children basedMarkov blanket for Epistasis Detection)算法。该算法将致病SNPs的识别问题分解为多个子问题,然后逐个解决每个子问题。通过每次检测一个与疾病关联的单核苷酸多态性(SNP),循环k次来达到完成全基因组病例-对照研究中k-way致病SNPs检测的目的。在模拟疾病数据集和真实全基因组数据集上的一系列实验表明,PCED算法进一步提高了上位性检测效率和样本有效性。