论文部分内容阅读
基因芯片按探针类型可以分为cDNA芯片和寡核苷酸芯片两种,按照样本采集不同则可分为静态与动态芯片两种。静态基因芯片针对固定的生物状态进行检测或在两种相对稳定生物表象下进行差异表达分析;而动态芯片,即俗称的时间序列基因芯片,则关注生物反应过程的基因表达动态变化特征。多种统计学方法已被用来分析类型各异的基因芯片数据。然而单方的基因芯片实验总是会受到样本量有限,重复次数少的限制,使得分析结果说服力不强。利用规范化的网络基因芯片数据库,在吸纳了医学研究中的合并分析思想后,我们对多套不同实验室来源、但拥有相同生物背景的基因芯片数据进行了综合分析。
Fisher的合并显著性效应量公式以及非参数的permutation检验贯穿在我们的整个分析过程中。在静态芯片综合分析方面,我们合并了三套microRNA在前列腺癌中的表达谱:首先用permutationt检验法得出单套实验中miNRA的差异表达显著性,随后在多套数据合并时也引入了resampling的思想,最后经过FDR校验赋予每个miRNA合并显著性Q值。而对4套时间点个数不多且缺乏重复的酵母热休克动态基因芯片数据,我们考虑了各时间点之间的关联性,采用直观的面积法进行差异表达强度统计。针对这类数据库中广泛存在的,质量不高的时间点芯片数据,本论文中还建立了一整套综合分析的策略。结果表明,只要经过细致的数据筛选和实践合理的统计模型,多方的芯片数据合并分析能够起到类似于增大样本量,增多重复次数的效果。
单靠芯片数据结果来解释生物现象是远远不够的,我们结合基因组调控信息数据,对上述的芯片合并分析结果给予了细致的生物学功能研究。在前列腺癌microRNA表达谱的分析中,结合其抑制的靶基因在前列腺癌中的转录水平及蛋白水平数据,我们找出一定的规律并推测了microRNA在癌症中发挥作用的模型;在酵母的热休克动态芯片分析中,利用聚类分析以及调控元件分析,我们发现了其热休克中主要的两条启动通路的时序调控特性。
海量的实验数据堆积,是机遇也是挑战。我们希望,本论文中建立的结合基因组调控信息的合并分析策略能够对多方数据的再利用起到帮助,并挖掘出深层的、有价值的生物信息。