论文部分内容阅读
生物信息中,一个很重要的研究领域是如何从大量microarray实验的数据中挖掘出有生物学意义的知识,而其中如何寻找在两类或两类以上样本中表达差异的基因集合(或基因pathway)正成为研究热点。已有寻找基因pathway的方法大体可以分为两类。一类是基于统计中假设检验的方法,如被广泛讨论的GSEA,还有PAGE,基于GSEA的双假设检验以及GSA方法等。这些方法虽然在一定程度上克服了传统的单个基因分析法的缺陷,却仍然存在着这样的缺点:没有把基因之间以及基因集合之间的关系考虑进去,也没有对挑选出的基因pmhway作基因选择,而这些能提供很丰富的生物学信息。另外一类方法是基于变量选择的分类模型,如Ma等提出的Supervised Group Lasso方法,作者称该方法能同时挑选基因和基因集合,实际上该方法只是进行了两步的基因选择,并没有把基因集合之间的分类能力考虑进去;而且参数估计算法十分复杂。本文结合Lasso的思想,提出了Regularized Group LasSO Regression(RGLR)模型,通过合理设置参数,我们在选择基因pathway的同时,对pathway内的基因也进行变量选择,有效地克服了已有方法的缺点,使得对结果的解释性大为增强;我们也提出了求解模型参数的有效迭代算法,并在模拟数据和实际数据中得到了很好的结果。本模型良好的扩展性也为更为深入的研究提供了方便。