论文部分内容阅读
人类基因组计划推动了后基因组和功能基因组的研究,要同时研究生物体成千上万条基因的功能,特别是研究基因与基因之间表达与调控的复杂网络关系,显然传统的研究方法效率太低,无法适应基因组与功能基因组研究的要求。微阵列技术正是在这种环境下应运而生的。在微阵列分析中,从细胞中抽提得到mRNA,把mRNA进行荧光标记,然后和含有基因序列的玻璃芯片进行杂交。芯片上每个点能和杂交液中荧光标记的特异性cDNA发生杂交结合,使得每个点的荧光信号和基因表达的丰度成正相关。荧光信号的强弱能以彩色模式来显示。然后基因表达可以通过芯片上每个位置的荧光信号强度来定量。基因表达谱能揭示在生命活动过程中发生的许多变化,这一技术已经广泛应用于生物学和医学的各个研究领域。微阵列技术的出现给生命科学的很多领域都带来了一场革命。例如通过比较正常组织和疾病组织的表达谱差异,可以了解疾病发生的分子基础,从而更好的预防和治疗。通过比较病人疾病发生的过程及用药过程基因表达的变化情况,从而实现毒理研究、药物发现和临床药效研究。通过全基因组表达谱研究,可以了解生命,也可以建立各种细胞和组织在不同时期的基因表达数据库,为研究人员提供帮助。在微阵列技术迅速发展的同时,数据也在不断地增加,如何有效地处理和管理芯片实验所产生的海量数据越来越引起研究者们的广泛关注。微阵列数据分析需要新的算法、软件和强大的计算平台的支持。本文首先针对微阵列数据分析的研究现状,总结了微阵列数据分析软件和数据库中存在的问题,这些问题主要表现在有些只专用于某一特定的芯片设备;有些只能在特定的操作系统下运行,而且对计算机硬件配置要求较高;有些是商业软件,费用很高;有些要设置的参数较多,要求生物学家对算法方面有很深的了解;有些采用命令行方式控制,没有图形化接口。一些生物学家需要花大量的时间来学习软件操作,而且使用多个软件才能得到预想的结果。因此,针对上述问题有必要开发一个操作界面友好、功能较全面、面向生物学家的微阵列数据处理平台。平台采用浏览器/服务器(Browser/Server, B/S)网络构架,用户可以在个人计算机上通过web浏览器来操作,本平台针对的是目前大多数实验室常用的三种芯片:寡核苷酸微阵列、cDNA微阵列和组织微阵列。用户将数据提交到相应的web服务器,同时选择参数,服务器进行分析和处理后,将结果返回到用户浏览器或用户文件夹以便用户下载。服务器的硬件平台为一台装有Linux操作系统的高性能计算机(PowerCluster8000IN),网络服务器为Apache HTTP,平台数据管理则采用MySQL数据库,并用Perl语言做后台的开发工具,整合了R和Bioconductor的多个软件包的功能,HTML编写前台网页。最后数据分析的结果以表格、文本或图像形式返回用户平台。R语言是一种计算机程序设计语言,也是一个开放式的软件开发平台,它有非常强大的统计分析,如参数估计、假设检验(包括参数检验和非参数检验)、回归分析(包括一元线性回归、多元线性回归、逐步回归和广义线性回归等)、时间序列分析、分类和聚类等。R语言还提供各种图形化显示工具,如散点图、箱线图、聚类图形等。构建于R平台上的Bioconductor计划是专门为计算生物和生物信息学而建立的。早期的微阵列数据处理一般都集中在简单的单基因为独立变量的假设下,根据临床参数和t检验的方法被广泛应用。Bioconductor可以提供很多更加合理的统计方法,它包括很多软件包,而且也是开源和开放的,用户可以了解算法的本质,可以改进和扩充软件的功能。所以本平台用Perl语言整合了Bioconductor中的很多软件包针对不同的微阵列数据进行分析。本平台的主要功能有:(1)寡核苷酸微阵列数据分析:读取原始数据;数据的预处理,如消除非特异性杂交的影响而进行背景校正,或为了从生物学角度上更好地解释及使数据满足特定的数据分布,通常对荧光强度数据进行对数转换,还包括异常值和缺失值的处理,重复数据的合并等;归一化是针对系统偏倚产生的原因而进行的;质量评估可以通过散点图、箱图等评估数据处理后的质量好坏;差异表达基因分析包括参数法(包括u检验、t检验、卡方检验和F检验等)以及非参数法(如传统的秩和检验、经验贝叶斯法、混合模型法、芯片显著性分析等);基因注释和功能分析包括各个数据中对于基因的标号、GO注释、KEGG注释、PubMed及超链接等信息,快速有效的基因注释对进一步识别基因,研究基因的调控机制,研究基因在生物体代谢途径中的地位等具有重要的意义。(2) cDNA微阵列数据分析:预处理,质量评估,统计分析。与寡核苷酸微阵列数据的处理与分析功能非常相似,本文所用统计方法为贝叶斯方法。(3)组织微阵列数据分析:用随机森林算法对样本进行分类,所用的软件包为Bioconductor中的randomForest。该算法可以应用少数几个指标就能很准确的判断样本的分类,可以对病例进行分析,这有很好的应用前景,例如,根据p53等少数几个指标,可以判断患者是否患有该种疾病或属于疾病的何种分型,对于前期诊断非常有意义,由于不用太多指标,这样还可以节省资金。运用本平台处理了结核杆菌不同临床分型的人类巨噬细胞寡核苷酸微阵列数据,即潜伏期、结核病、结核性脑膜炎进行分析,为识别结核杆菌的敏感基因提供了线索。运用本平台还对不同条件下用异烟肼处理结核分枝杆菌的效果进行处理和分析,例如低氧条件和敲除katG基因的条件所获得的相关cDNA微阵列数据,发现用异烟肼处理的对数生长期调节的基因将不会在休眠期模型中被差异调节;并且在细胞的低代谢状态,即休眠期,被差异调节的基因总数将减少。这些应用研究与国际上的一些报道得到的结论有一致性,验证了平台的有效性,并为结核杆菌的进一步研究提供了思路。平台还有许多不足之处:微阵列数据分析有很多的软件包和算法,本文只整合了R语言和Bioconductor的部分软件包,尚需要对平台的功能做进一步的扩充和完善。本平台编程目前还未采用并行计算技术,所以当算法本身比较耗时并且数据量又较大时,服务器无法达到最优运算速度,因此下一步应该对部分耗时算法和软件使用并行计算技术进行优化处理。随着高通量数据的大量产出与发布,本课题的研究工作能为从事微阵列数据分析的生物学家提供方便,辅助他们使用寡核苷酸微阵列数据、cDNA微阵列数据、组织微阵列数据或其它芯片数据,实现不同目的的数据分析工作。此外本课题的工作对相关生物信息学平台的设计与构建研究也有一定的参考价值。