论文部分内容阅读
随着人类基因组草图绘就的完成,人类基因组研究计划(Human Genome Project,HGP)进入了后基因组时代。后基因组时代研究的重点由基因序列研究上升为基因功能的研究。20世纪90年代开发的微阵列技术使研究人员可以同时测定成千上万个基因的表达水平。这为研究基因之间表达控制的复杂关系,生物标志物的检测(Biomarker Identification)以及癌症分类(Cancer Classification)提供了重要依据。然而基因表达数据高维数、高噪声的特点对分析方法提出了更高的要求。如何在海量基因表达数据中,发现肿瘤组织的基因表达模式,成功地将临床表征不明或容易误诊的恶性肿瘤准确、快速地区分开,是一项具有挑战性的研究课题。这将为癌症的早期诊断与及时治疗做出重要的贡献。
近年来,多种判别分析和变量选择的方法用于基因表达数据的分析。生物标志物的检测就是从成千上万的基因当中检测出那些与肿瘤的起因、发展紧密相关的关键基因。一个有效的生物标志物检测应该使癌症的诊断更准确而且更容易解释。本文围绕在判别分析中利用稀疏惩罚实现变量选择的方法,及其在基于基因表达数据进行生物标志物检测和癌症诊断的应用,做了三个方面的研究工作,概括如下:
(一)将惩罚高斯混合模型应用于有监督学习,并应用到癌症分类和生物标志物的检测中。该方法将高斯混合模型与惩罚似然估计相结合,通过对对数似然函数增加一个关于类均值的L1惩罚项,使得类均值产生一个稀疏解。将该方法用于一个稀疏模拟数据和几个基因表达数据集中,实验结果显示该方法在具有稀疏结构的数据中,均可以取得比较准确且稳定的分类结果。该方法具有不受类数限制和对变量预选择个数不敏感等优点。
(二)将惩罚高斯混合模型的特殊情况稀疏判别分析应用于乳腺癌的生物标志物检测和癌症分类中。该方法不仅可以正确的将癌症分类,而且在分类过程中自动提取出生物标志物。深入分析这一过程的实现,本文给出了一个数学的合理性解释。挑选出的生物标志物亦得到了生物医学研究的验证,并用三个生物标志物对乳腺癌样本进行可视化检视。
(三)提出稀疏极大边界的特征提取方法,并应用于基因表达数据分析中。该方法结合极大边界准则的高效性和弹性网的解的稀疏性,使得提取到的最佳分类特征仅仅是少数原始变量的线性组合。应用在基因表达数据分析中,该方法不仅可以取得良好的癌症分类效果,而且具有很好的生物解释意义,为寻找致病基因提供了重要依据。