论文部分内容阅读
随着全基因组关联研究(GWAS)第一次浪潮的初步告捷,GWAS已广泛应用于人类疾病的遗传机制研究中。然而,GWAS研究的结果却难以完全解释很多复杂疾病的遗传机制,其原因主要在于,复杂疾病一般由多个基因共同作用发生,单个基因的效应微小。针对这一问题,研究基因-基因交互作用就显得至关重要。目前,已有很多基于SNP的基因-基因交互作用挖掘方法,这些方法往往以SNP作为研究的基本单元,通过研究SNP间交互作用,来推测SNP所在基因间是否存在交互作用。然而,基因是功能表达的基本单位,且一个基因中包含多个SNP位点,SNP间存在交互作用,并不能表明SNP所在基因间就一定存在交互作用。为了避免该问题,本文提出了一种基于基因的信息增益方法(简称,gene-based信息增益方法)来挖掘基因-基因交互作用。本文提出的gene-based信息增益方法从整体基因的所有SNP的角度出发,采用病例-对照数据集,利用信息熵、信息增益等基本理论进行设计来检测基因间是否存在交互作用。该方法以整体基因为基本单位,考虑了基因中所有的SNP信息,与基于SNP的基因间交互作用挖掘方法相比,该方法避免了单个SNP信息不足以代表整个基因的问题,更能从生物学的角度解释疾病的遗传机制。为了更好的评估gene-based信息增益方法的性能,本文设计了模拟实验,还采用真实基因数据进行实例验证,并与基于SNP的熵方法以及基于基因的KCCU方法两种基因-基因交互作用挖掘方法进行比较。模拟实验中选用了检验效能和假阳性两个评价指标,观察了检验效能随着OR值、样本量和患病率三个条件分别从小到大逐渐变化而变化的规律,并分析了两基因间不存在交互作用时,该方法的假阳性,即犯第一类错误的概率。实例验证中选用了与类风湿性关节炎疾病相关的PADI6、SERPINA1和VDR三个基因的数据进行验证。无论是模拟实验还是真实基因数据实验,本文提出的gene-based信息增益方法均优于基于SNP的熵方法、基于基因的KCCU方法,验证了该方法的有效性。