论文部分内容阅读
本文对利用基因芯片数据提取表型相关基因进行了探讨。文章指出,基因芯片数据的众多应用中,一类非常普遍而且有意义的应用是利用基因芯片数据研究不同表型的细胞中基因的mRNA水平的不同,进而试图推测在基因水平上导致不同表型的原因。而这类应用中有三类非常普遍的数据:每种表型下具有多个独立样本的数据,不同表型细胞的时间序列数据和单个个体不同干扰条件下的表达数据。例如,世界上许多生物实验室都分别测量了癌变细胞和正常细胞中基因的表达水平,试图了解导致癌症的机理,希望对于癌症的诊断甚至治疗有所改进。有些生物实验室测量了某些物种在各个不同的发育阶段或者在进行了某种处理之后不同的时间点上的基因表达水平。试图利用这些数据研究某些因素对于生物的基因表达水平的影响。但是如前所述,基因芯片中存在着大量的噪声,所以本文首先考虑利用在每个表型下都具有多个独立重复样本的基因芯片数据提取不同表型中差异表达的基因。我们提出利用相对熵来解决这个问题,并将其应用到两个公共的基因表达数据,与目前使用频繁的其他方法比较,得到了非常好的结果。其次,本文考虑利用不同表型细胞的时间序列数据提取不同表型中差异表达或者说表型相关的基因。这一部分工作的出发点主要是来自于我们的合作者,中国科学学院遗传所,测量的水稻的芯片数据。我们利用聚类,非参数检验等统计方法非常具体地解决了从中挑选不同表型细胞中差异表达的基因。希望从这些基因出发,对基因之间相互作用关系有更深刻的了解。本文就如何利用不同表型细胞中的基因表达水平来挑选不同表型中差异表达的基因这个问题,给出了较好的解决方法。