论文部分内容阅读
单核苷酸多态性(SNP)是第三代遗传标记物,已被广泛应用于生物及医学研究中。全基因组关联研究(GWAS)利用SNP为标记进行病例-对照关联分析,以期发现影响复杂性疾病及生物性状的遗传特征,进而为疾病的早期诊断、个性化治疗、新药研发等提供依据。SNP数据的质量是GWAS取得成功的关键因素。事实上,由于受到实验过程中硬件或者软件等因素的限制,采集到的SNP数据不可避免地存在误差。因此,对SNP位点数据的质量控制是十分必要的。本文主要的研究工作是寻求更有效的SNP位点的质量控制方法,使其更好地服务于GWAS。衡量SNP数据质量的基本参数有三个:基因分型率、次等位基因频率以及哈温平衡检测值,现有的质量控制方法采用的是“有监督”的专家过滤器,人为设置参数阈值。针对这一问题,本文设置了更为严格的质量参数,并利用重置后的参数,提出了两种基于聚类的SNP质量控制算法:(1)基于加权模糊核聚类算法的质控方法。SNP数据集有多个属性,数据集对于正常SNP聚类与噪声SNP聚类存在属性不平衡现象。针对这一问题,本文引入加权模糊核聚类算法,通过动态计算属性间的不平衡性,分别将正常的SNP位点与噪声位点划分到两个类中。对于高维非团状数据集,该算法比传统的聚类算法有更好的效果。实验结果表明加权模糊核聚类算法对于SNP质量控制问题是有效可行的。(2)基于SNN聚类算法的质控方法。针对SNP数据的高维度特点,SNP位点的筛选可分两步进行。首先运用主成分分析法对数据进行降维,并将每个位点映射到二维平面图上,得到位点的分布图;其次,在此分布图上运行SNN聚类,SNN算法能够在含有噪声的数据集中发现不同大小、不同形状及不同密度的空间聚类,自动检测出噪声位点。实验结果验证了这种方法的可行性。