论文部分内容阅读
随着高通量基因分型技术的快速发展,全基因组关联研究已经成为检验复杂疾病关联性变体的一种非常重要的方法。科学家在进行全基因组关联研究时,通常会选择一个合适的SNP集(标签SNPs,简称为tagSNPs)进行关联分析和检测,这个SNP集既要含有全体原始SNP集的大多数信息,又要大大降低计算复杂性。目前使用的tagSNPs选择方法主要有两类:基于单体型块结构的tagSNPs选择方法和基于LD的tagSNPs选择方法。本文提出了基于宽度优先搜索和基于最大信息量的tagSNPs选择方法,并通过大量的仿真实验验证了两种方法的有效性。具体内容如下: 在基于宽度优先搜索的tagSNPs选择方法中,首先应用图论中的宽度优先搜索方法对单体型进行分组,连锁不平衡程度高的SNPs被分到同一个组中;然后在分好的组内搜索与组内SNPs连锁不平衡系数最大的SNP,作为tagSNPs。基于最大信息量的tagSNPs选择方法在分组策略上不同于上述方法,通过选取一个最大信息量的SNP,与最大信息量SNP连锁不平衡程度高的SNPs与这个最大信息量SNP放到同一个组中;然后按照上述方法迭代进行分组;最后在分好的组内基于SNPs之间的连锁不平衡系数寻找tagSNPs。 为了验证基于宽度优先搜索和基于最大信息量的tagSNPs选择方法的有效性,我们分别将这两种方法应用真实数据和仿真数据上,并比较基于tagSNPs进行疾病关联检验与基于原始SNP集进行疾病关联检验的P值、第I类错误率和功效。文中应用HapMap计划的CEU样本,选取基因MTRF1和基因PHGDH上的全部SNPs作为研究对象,所有仿真数据均由HAPGEN2产生。大量数据试验结果表明:基于宽度优先搜索和基于最大信息量的tagSNPs选择方法选择的tagSNPs可以用来进行疾病关联检验,并且在最大化SNPs提供的信息含量的同时,降低了基因分型的成本,减少了计算的复杂性。