基因表达数据的判别分析与变量选择方法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:hjdrm225411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组草图绘就的完成,人类基因组研究计划(Human Genome Project,HGP)进入了后基因组时代。后基因组时代研究的重点由基因序列研究上升为基因功能的研究。20世纪90年代开发的微阵列技术使研究人员可以同时测定成千上万个基因的表达水平。这为研究基因之间表达控制的复杂关系,生物标志物的检测(Biomarker Identification)以及癌症分类(Cancer Classification)提供了重要依据。然而基因表达数据高维数、高噪声的特点对分析方法提出了更高的要求。如何在海量基因表达数据中,发现肿瘤组织的基因表达模式,成功地将临床表征不明或容易误诊的恶性肿瘤准确、快速地区分开,是一项具有挑战性的研究课题。这将为癌症的早期诊断与及时治疗做出重要的贡献。 近年来,多种判别分析和变量选择的方法用于基因表达数据的分析。生物标志物的检测就是从成千上万的基因当中检测出那些与肿瘤的起因、发展紧密相关的关键基因。一个有效的生物标志物检测应该使癌症的诊断更准确而且更容易解释。本文围绕在判别分析中利用稀疏惩罚实现变量选择的方法,及其在基于基因表达数据进行生物标志物检测和癌症诊断的应用,做了三个方面的研究工作,概括如下: (一)将惩罚高斯混合模型应用于有监督学习,并应用到癌症分类和生物标志物的检测中。该方法将高斯混合模型与惩罚似然估计相结合,通过对对数似然函数增加一个关于类均值的L1惩罚项,使得类均值产生一个稀疏解。将该方法用于一个稀疏模拟数据和几个基因表达数据集中,实验结果显示该方法在具有稀疏结构的数据中,均可以取得比较准确且稳定的分类结果。该方法具有不受类数限制和对变量预选择个数不敏感等优点。 (二)将惩罚高斯混合模型的特殊情况稀疏判别分析应用于乳腺癌的生物标志物检测和癌症分类中。该方法不仅可以正确的将癌症分类,而且在分类过程中自动提取出生物标志物。深入分析这一过程的实现,本文给出了一个数学的合理性解释。挑选出的生物标志物亦得到了生物医学研究的验证,并用三个生物标志物对乳腺癌样本进行可视化检视。 (三)提出稀疏极大边界的特征提取方法,并应用于基因表达数据分析中。该方法结合极大边界准则的高效性和弹性网的解的稀疏性,使得提取到的最佳分类特征仅仅是少数原始变量的线性组合。应用在基因表达数据分析中,该方法不仅可以取得良好的癌症分类效果,而且具有很好的生物解释意义,为寻找致病基因提供了重要依据。
其他文献
对非标准增长条件的p(x)-Laplace方程问题的研究是近年来发展起来的一个新的研究课题。由于Laplace方程和p-Laplace方程的研究方法已经不再适用于p(x)-Laplace方程,所以目前对
随着信息技术的迅速发展,生物医学、工程、商业、科学研究等各个领域积累了大量的数据,并且数据积累的速度越来越快。数据积累的目的往往是希望从中挖掘出一些有用的信息,因此数
随着现代社会的不断发展,在进行现代教育的执行过程中,创新的教学理念,就成为了当下社会发展的根本所在.为更好的在教学中促进学生的创新思维,就需要从根本上强化学生在学习
多年来,微分方程数值解法一直与数值逼近、数值线性代数鼎足三分.近年来由于计算机技术的蓬勃发展,更使得这门学科日趋重要.微分方程的解在数学意义上存在性可以在非常一般的条件
本文在刻划扩张仿射李代数的扩张仿射根系时介绍了半格的概念,并由半格出发构造了一类以Jordan环面为坐标代数的A1型扩张仿射李代数。设S是Euclid空间Rv(v≥1)的一个半格,J=J(S
在离线排序问题中,机器的性质是多样的,其中研宄比较多的主要为恒同机、一致机以及无关机。所谓恒同机是指机器的速度是一样的,工件的加工时间只与工件自身的长度有关,而与机器无
在数学、物理学、工程计算和统计分析等领域的数学建模中,比较成熟也比较容易计算的是考虑能否将其转化为线性系统.然而,在具体的数学建模过程中经常涉及到参数的不确定性,这种不
本文我们讨论了凸极小化问题以及相应的Douglas-Rachford分裂方法.它广泛应用于各个领域,例如:图像处理,压缩感知,金融,管理以及信息科学等。随着对这些实际问题的深入研究,也推动
为了进一步探究互联网+背景下发展高校继续教育的具体措施,文章首先分析了新形势下高校继续教育所面临的问题,包括学历补偿教育市场规模降低、非学历教育需求增加、继续教育
在Morrey空间、Herz空间的定义启发下,我们知道有Morrey-Herz空间的概念.基于Morrey空问和Morrey-Herz空间,我们对加权Morrey-Herz空间MKαλρq(ω1,ω2)做了进—步研究,且引入