论文部分内容阅读
全基因组关联分析(Genome-wide association studies,GWAS)是经过剖析大量生命体全基因组SNP位点上的基因型信息和相关疾病表型信息来揭露复杂疾病致病基因的有效途径。目前,GWAS采用的主要模式是疾病与单个SNP位点相关统计分析的方法,但是人类的复杂疾病往往是多基因交互作用(Gene-gene interactions)的结果。大量研究结果表明,乳腺癌、糖尿病和冠心病等人类常见疾病与多基因交互作用密切相关,而基于单个SNP位点的统计方法可能无法探测到所有的基因交互作用。探测基因交互作用有助于基因功能的识别,对于发现隐藏的药物靶标和人类复杂疾病的遗传机制尤为突出。随着基因分型技术的快速展开,常见疾病表型信息及相关个体的全基因组基因型信息呈爆发性增长,高维基因交互作用的探测在计算上面临着巨大的挑战。机器学习(Machine learning)是让机器模拟人类的认知过程来处理问题的办法,不用预设基因交互作用模型,而是让计算机算法通过大量数据进行学习,以此获得处理高维非线性交互作用的能力。通过近20年的研究和发展,许多机器学习模型被用于探测基因与基因之间的交互作用,获得了较大的成效,但由于遗传异质性、群体分层以及涉及众多SNP位点的交互作用的存在,对机器学习方法探测基因交互作用的性能产生了很大的影响。针对基因数据维度高且通常包含噪声,而目前探测基因-基因交互作用的方法又非常耗时等问题,本文以全基因组关联分析为背景,以基因-基因交互关系作为研究对象,结合机器学习模型和直积算法,提出一种新的探测基因交互作用的算法CP-SVM,以避免高维度基因数据带来的巨量计算负担和穷尽搜索策略带来的多重比较中的校正问题。通过模拟数据对CP-SVM算法与MDR,RF等主流机器学习算法做对比分析,验证了 CP-SVM算法优秀的分类性能和更少的计算时间。我们还利用CP-SVM对AMD真实疾病数据进行分析,CP-SVM算法探测到的基因交互作用结果与已有研究结果一致,进一步验证了算法的有效性。CP-SVM算法除了探测到了与现有探测到相同的SNP组合外,还识别了其他的高阶致病SNP组合,为AMD疾病的研究提供了重要的参考。