论文部分内容阅读
阿尔茨海默病(Alzheimer’s disease,AD)即老年痴呆症,是最常见的神经退行性疾病之一,其典型病理特征是淀粉样蛋白沉积、神经纤维缠结和老年斑的形成等。随着世界人口老龄化程度的加剧,AD不仅影响了人们的正常生活,而且大大增加了社会医疗成本,现已成为一个严重的公共卫生问题。目前,对AD的发病机制尚不完全清楚,也缺乏早期诊断的可靠指标,现有的对AD早期诊断的研究主要集中在对神经心理学标记和生物学标记的研究上,包括脑脊液(Cerebrospinal fluid,CSF)生物标记、血液生物标记、遗传标记等。近年来,双生子研究证实了AD具有极高的遗传性,被认为是能够最早预测发病风险的一个重要指标。全基因组关联分析(Genome-Wide Association Studies,GWAS)作为研究AD发病机理的重要手段,已经发现了多个AD风险变异。由于在GWAS分析中常常因“忽略”了潜在的基因间的相互作用,从而会出现“丢失”遗传位点的情况。而蛋白质互作网络(Protein-Protein Interaction,PPI)是由单独蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。那么,针对GWAS数据,通过PPI网络分析方法识别功能网络模块,然后对其进行功能注释则更为贴近系统生物学的理论。这种策略不仅提供了新颖的视角来理解AD的病理生理机制,而且对于建立早期诊断及临床评估其它生物标记具有重要意义。鉴于此,本文重点研究基于蛋白质互作网络挖掘AD中GWAS数据的策略。针对CSF和影像学表型的GWAS数据,挖掘包含AD风险基因的重叠功能网络模块并进行深入研究。本文主要研究内容有:首先,GWAS数据预处理,针对ADNI数据库的体液表型CSF数据和影像学表型MRI(Magnetic Resonance Imaging)中FreeSurfer数据进行样本的提取和处理,最终确定CSF表型有843个样本,MRI中FreeSurfer有866个样本。对所确定的样本进行SNP(Single Nucleotide Polymorphisms)层面上分析,获得56,3980个SNP,为后续基因层次的实验分析做好数据准备工作。其次,针对CSF中t-tau GWAS数据,随机分为三组数据,分别进行基因层次分析。根据PPI网络的关联特点对传统的PageRank算法进行改进,引入蛋白质节点的重要程度作为权重,设计一种基于权重调整PageRank算法的PPI网络功能模块挖掘方法,获得优先排序的网络,然后分别结合Jaccard相似度度量方法和Meta分析方法挖掘重叠网络功能模块,发现了包含与AD相关风险基因的重叠网络模块。此外,针对CSF中t-tau/Aβ1-42 GWAS数据,设计一种基于重启随机游走模型的一致性模块挖掘算法CM-iPINBPA,整合重启随机游走、贪婪算法和一致性算法挖掘一致性网络模块(Consensus Modules)来增加算法稳定性。该方法挖掘出4个一致性网络模块,从生物学角度验证获得的网络模块,发现多个具有相关生物学功能的基因。最后,针对MRI中Freesurfer多表型GWAS数据,设计一种基于MGAS模型的一致性网络模块挖掘的算法(MGAS-CMs),挖掘PPI网络中与影像表型相关的一致性网络模块。利用MGAS-CMs算法挖掘出5个与Freesurfer影像表型相关的一致性网络模块。实验中发现多个AD风险基因,证实将多变量全基因组关联分析和一致性网络模块挖掘的思想结合起来的统计效力高于传统的GWAS方法。综上所述,利用网络分析的策略来找到AD表型与遗传变异之间的关系,不但能从多表型联合或相互作用角度考虑各个基因对疾病的作用,还能从网络模块和生物学通路角度帮助解释阿尔茨海默病的分子机制。