论文部分内容阅读
DNA芯片(DNA微矩阵)技术作为一种高通量的生物学分析平台,产生了海量的基因表达数据。如何对这些数据进行有效地分析和挖掘以发现其中蕴含的信息和知识,是当前生物信息学研究的一项重要工作。在基因表达差异分析应用中,基因表达数据的预处理工作需要比较不同条件下的基因表达差异,从中识别出与实验条件相关的特异性基因,过滤掉无关或关系不大的基因。如果基因表达数据预处理工作的后续研究是样本的分类研究,特异性基因就是把样本划分为表示不同类别的特征基因。特征基因的选取问题对后续的数据分析与挖掘非常重要,决定了后续分析能否得到预期的结果。
目前,有多种方法或策略可应用于特征基因的选取,其中一大类是经典的统计学方法;另外一大类方法是专门针对芯片数据的特点设计的。在后者中,有一种称作基因芯片显著性分析(SAM)的方法在芯片分析领域被广泛应用。SAM方法以t检验为基础,并根据芯片数据噪音大小与表达峰度相关的特点进行修正。其特点是在筛选得到较多特征基因的同时,错误发现率(FDR)还保持在较低的水平。因此SAM非常适用于基因表达数据预处理过程中的基因初步筛选。
利用基因表达谱对肿瘤分类、分型或分期的首要问题就是从成千上万的基因中找出决定样本类别的那组特征基因。特征基因选取问题是肿瘤基因表达谱分析的核心内容,它既是建立有效分类模型的关键,也是发现肿瘤分类与分型的基因标记物、研究肿瘤发生发展机制以及寻找药物治疗潜在靶点的重要手段。本文第三章使用SAM方法,从一组伯基特淋巴瘤的基因表达数据中选取了与分期特征相关性比较强的90个特征基因,结合基因本体论(GO)和KEGG通路分析,发现其中9个特征基因同属于基因本体论中的信号转导子类并且在多条相关通路中频繁出现,因此估计他们处于这些通路的核心位置。另外,这9个特征基因所参与的功能中,有2项功能可能与该肿瘤恶化相关,此前未见报道。
在基因表达数据与其他种类的生物数据之间建立关联或进行整合是基因表达数据分析的一大类问题。在本文第四章中,SAM方法用来在基因表达数据与药物活性数据中建立关联以研究基因与药物之间的关系,这些关系在已往使用皮尔森线性相关方法处理中被忽略。36个基因因其与多种药物之间的相关性排位最高而被选中。KEGG通路和基因本体论方面的分析结果显示这些基因涉及多条通路,并且有4个基因可能处于这些通路的核心位置。文献查询的结果证实了上述相关通路都是与癌症发生发展密切相关的。