论文部分内容阅读
随着人类基因组计划的完成,生命科学进入了后基因组时代。科学家开始探究疾病与基因的关系,并把目光投向基因组上特殊的遗传标记位点——SNP。SNP多态性位点的差异有可能造成人们罹患疾病的不同风险和对药物的不同反应。发现这些与常见疾病相关的DNA序列上的多态位点,是了解引起人类疾病的复杂原因和人类族群迁徙的最重要途径之一。本实验室就是在这样的背景下启动DrSNP(Disease-related SNP)项目的。目前在疾病与基因多态性关系的研究中,人们针对某个疾病或某个SNP位点的研究还呈现单一性,而且各个机构之间的原始数据得不到很好的互享,不同研究群体之间的分析单独进行。然而,实际影响某个疾病的因素可能是多样的,多基因位点、多种环境因素共同作用的结果,简单的小样本数据和单一的分析方法是不可胜任的。特别是对于那些复杂遗传疾病,需要收集大量的样本,采用数据挖掘的方法,建立专门的数据库和分析工具。基于以上设想,我们的研究思路是:建立SNP芯片数据库和样本数据库,并且在此基础上开发、集成各种分析方法,让用户可以共享数据,同时可以实现在线(on web)的数据分析。在本论文中,我们设计了SNP相关的数据库系统,提出了SNP数据的分析框架,并且完成了用户在线调用R中的工具包实现统计分析的方案。下面是论文的主要内容:(1)构建SNP相关的数据库以及分析框架DrSNP(Disease-related SNP)项目旨在通过整合三方面的数据(病人样本数据、SNP芯片实验数据、SNP信息数据),通过SNP位点筛选以及实验结果统计分析的生物信息学方法,应用生物芯片技术,最终探索疾病和基因多态性之间的关系。本论文完成了SNP相关数据库的设计,以及构建各个数据库的关联。并且在此基础上,提出了基于这三个数据库的SNP数据分析框架,以及相应的数学分析模型。(2)开发了基于Web的R分析环境和R程序包R是一个开源的用于统计计算和图形化显示的语言环境。鉴于这一特点,我们在论文中选用它作为系统底层的分析计算环境,并且用Rserve+JSP的模式实现了客户在Web端调用后台R程序进行统计计算的诉求。根据SNP芯片数据的特点,我们开发了一系列用于SNP分析的R程序包,例如Hardy-Weinberg平衡检验,基因型频率分布,疾病相关指标的显著性分析,疾病危险因素的回归分析。(3)冠心病人与OLR1基因多态性的相关性研究论文最后通过分析氧化低密度脂蛋白受体1(OLR1)基因上两个位点的基因型数据,讨论了冠心病和基因多态性的相关性。论文收集了来自三个医院的338例冠心病病人(HX:272例,SD:50例,GL:16例)和280例频数配对的正常人的基因型数据,用R编写的工具包对这些数据进行HWE检验,冠心病的各项指标对照分析,组间基因型频率和基因频率的对照分析以及位点间的Haplotype分析等等。结果显示TC、HDL、LDL、LDL/HDL以及TC/HDL这些指标在病人组和正常组之间呈现显著性差异,位点基因型分析显示基因型频率在疾病组和正常组之间没有呈现很强的差异性,单体型频率在疾病组对照组之间也没有显著性差异。