论文部分内容阅读
全基因组关联分析(Genome-wide Association Analysis,GWAS)常被用于阿尔茨海默症(Alzheimer’s Disease,AD)标记物的检测。在传统的GWAS中,通过分析AD的表型数据(phenotype)及其基因型数据(genotype)之间的联系,从而探测AD相关的标记物。这样的GWASs通常存在三个问题:1)忽略了疾病的标签信息。2)基因型数据和表型数据之间的映射关系难以用线性模型来拟合;3)超高维(~106)的基因型数据是GWAS研究中的大挑战,而现有的方法要么以时间为代价,要么舍弃部分基因型数据以降低计算复杂度。为了解决以上提出的问题,我们提出了一种基于深度学习的GWAS方法(deep-GWAS)对AD的生物标记物进行检测,先通过参数约简网络搭建表型数据和高维基因型数据的非线性拟合模型来逼近两者间的距离,再利用有监督学习构建统一的深度学习框架联合基因型数据和疾病的诊断信息,最终实现精确的AD相关生物标记物的检测以及临床诊断信息预测。本文中,我们对公开数据库ADNI里的数据集进行了实验评估。对数据进行相应质量筛选等预处理后,ADNI数据集中共有708例样本,包括198例正常人(Normal Control,NC)数据,152例轻度认知障碍未转化者(MCI non converter,MCInc),194 例轻度认知障碍转化者(MCI converter,MCIc),以及164例AD患者,实验中按照病程,708例样本被划分为2类,其中NC/MCInc为一类,记为0;AD/MCIc为一类,记为1。每个样本都包含了磁共振影像(Magnetic Resonance Imaging,MRI)和基因数据单核苷酸多态性(Single Nucleotide Polymorphism,SNP)。经过处理后,最后每例样本中都包括93维感兴趣区域(Region of Interest,ROI)的体积向量和501584维的SNP向量数据,其中SNP是由{0,1,2}组成的超高维离散数组。需要注意的是,本研究中我们的目的是检测AD相关的标记物,包括ROI标记物和SNP标记物。因此,随着deep-GWAS模型的建立,评估各模块有效性,最后根据我们的标记物检测方法,得到相应的标记物。ROI关于708例样本分2类的精度为0.820±0.025,ROI主要标记物包括右海马体,左海马体,右内嗅皮层,左杏仁核,右丘脑,右脑回,右穹窿部,右枕颞外侧回,内囊前肢,左颞中回等,SNP关于708例样本分2类的精度为0.70±0.15,检测的SNP标记物包括TOMM40,DDX60L,LHFPL2,PHACTR3,LOC105374660,FGD6,LOC112268261,NAALADL2,LOC105374660,LOC100506974,CACNB2等。这些标记物在以往的研究中多数被证明与AD相关,因此一定程度上证明了我们方法的有效性。在deep-GWAS中,我们的贡献总共有四点:1)实现了超高维SNP数据在GWAS研究中的非线性拟合;2)实现了超高维SNP数据到疾病诊断空间的直接映射;3)提供了网络交互在神经网络中的应用,该思路可以拓展至其他处理高维参数的研究;4)提供了将传统GWAS与深度学习相融合的方法思路,可应用于其他的传统方法;