论文部分内容阅读
研究目的:随着基因组学及相关高通量技术的发展,我们从分子层次探索人类复杂疾病及相关生物学过程机理的能力越来越强,与此相应,也积累了大量与各种疾病相关的基因及其功能的信息。然而,对特定疾病而言,由不同技术及方法所确定的基因,其中大多数可能在疾病的发病或发展过程中只起到较小或间接的作用,只有少数基因与其具有密切的关联。因此,在疾病的研究中,如何整合由不同研究人员利用不同平台和技术所积累的与之相关的候选基因信息,从数目众多的候选基因中筛选出关联程度最优的基因集,并从系统的层次探索其功能以揭示疾病发生发展的分子机理,依然是复杂疾病研究中面临的挑战。近年来,尽管已经开发了许多计算方法以解决这些问题,但它们均存在一定的缺陷或局限性。因此,针对复杂疾病的特点,开发出更有效的候选基因优选方法和相应的基因功能分析工具具有重要的意义。研究方法:1.PriorGene:候选基因优选本研究通过收集整合不同研究类别的疾病相关候选基因,利用最优化算法给不同研究类别分配合理权重来度量不同研究类别对度量该研究类别中的基因与该疾病表型的相关性的贡献程度,再根据候选基因的综合得分和我们设定的阈值,最终筛选出一组最优的与疾病相关的基因集合。同时,我们对所优选的基因进行了功能富集分析并确定其中显著富集的生物学通路。并且,利用受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)比较分析了不同基因优选工具PriorGene、GLAD4U、Phenolyzer和GeneCards的优选结果。2.PriorFun:通路富集分析考虑到真实的生物学通路中不同基因的所起的作用并不等价,我们构建了基于基因之间相互作用信息通路富集分析工具。该方法基于如下假设:在给定通路中,相比通路之外的基因,如果一个基因更倾向于与通路中的基因相互作用,那么它在这个通路中可能具有较重要的功能。这种关联特性可以利用超几何抽样模型来估计,从而给通路里的基因分配权重,并将基因的权重整合到右尾Fisher精确概率检验来计算不同生物学通路富集的显著性。研究结果:1.候选基因优选我们从关联研究、连锁分析、基因表达谱分析和文献搜索这四个研究来源分别得到了278、2158、694和1635个与精神分裂症相关的候选基因。以基因的综合得分0.653为阈值筛选了267个基因作为最终优选的结果,称之为精神分裂症相关的基因(Schizophrenia-related genes,SCZgenes)。功能富集分析发现,很多与神经发育,突触传递,神经信号传导相关的生物学过程在SCZgenes中显著性富集。例如,突触传递、调控神经冲动传递、谷氨酸信号通路、细胞表面受体连接的信号转导、G蛋白偶联受体蛋白信号通路等Gene Ontology生物学过程条目。同时还有一些生物学过程与药物反应,认知和记忆相关。而通路富集分析的结果则显示大部分显著富集的通路都是与神经功能或药物成瘾相关的。例如,多巴胺能神经突触,谷氨酸能神经突触,5-羟色胺能神经突触,可卡因成瘾,安非他明成瘾,尼古丁成瘾,酒精成瘾。ROC曲线比较分析不同工具的优选结果则显示曲线下面积(Area Under the Curve,AUC),AUCPriorGene(0.939)>AUCGeneCards(0.917)>AUCPhenolyzer(0.903)>AUCGLAD4U(0.793)。2.通路富集分析通过利用特定的检索词在PUBMED中检索并筛选出与尼古丁或吸烟成瘾和吸烟起始相关的研究报道,得到了177个与尼古丁成瘾相关的基因(nicotine addiction-related genes,NAgenes)和34个与吸烟起始相关的基因(smoking initiation-related genes,SIgenes)。利用过表达分析(Over-representation analysis,ORA)和基于网络的基因加权过表达分析方法对NAgenes和SIgenes进行通路富集分析,结果显示大部分显著性富集的通路是与神经系统相关的,这与先前的研究结果一致,并且基因加权过表达分析方法能够检测出更多真实与该疾病表型相关的通路。研究结论:1.本研究中功能和通路富集分析的结果与已有的试验研究结果一致性较高,说明了PriorGene优选出的精神分裂症相关的基因是可信的,可以作为进一步研究精神分裂症分子机理的候选基因。2.ROC曲线比较分析了PriorGene与GLAD4U、Phenolyzer和GeneCards对精神分裂症候选基因的优选结果,通过比较每条曲线的AUC值可以得出PriorGene的优选结果最好。3.精神分裂症是影响神经系统功能的复杂疾病。药物成瘾可能与精神分裂症存在因果关系,而精神分裂症可能会直接或间接影响学习、认知和记忆等高级神经生物学过程。4.本研究得到了比较可靠的NAgenes和SIgenes,为今后尼古丁成瘾相关的实验研究和相应的数据库构建提供了有价值的基因集。