β散度的非负矩阵分解在基因聚类中的应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:Bo_Gao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息爆炸的今天,尤其是基因芯片技术的快速发展,使得越来越多的科学家被吸引到生物信息领域当中,而基因聚类也成为该领域当中热门的课题,其有着非常重要的研究价值。基因表达数据为疾病检测提供了一种快速而有效的诊断方法,但其表达数据维数高、样本量小,以及大噪音等特点,这使得选择或提取相关的特征信息成为一项有挑战性的工作。非负矩阵分解(NMF),一种有效的处理海量非负数据的方法,具有实现简单,分解速度快以及分解结果有明确物理意义等优点,已成为高维数据分析和降维的重要研究方向。  本文首先对现有的基于二范数和KL散度的矩阵分解算法背景知识,研究现状,实现意义进行一个概要描述。同时介绍了基因聚类问题在生物信息中的重要性,以及目前基因聚类的研究动向和发展前景,在此基础上提出了β散度的非负矩阵分解算法。由于该算法中参数β选择的不确定性,为我们研究矩阵分解提供了更多的选择,即我们可以通过不同的数据类型选择不同的参数值,这使得该算法使用起来更加的灵活。论文通过梯度下降的方法得出β散度非负矩阵分解迭代规则,对算法的收敛性进行了证明。并应用β散度矩阵分解对肿瘤基因表达数据进行降维,特征的选择,然后将其与K-means相结合用于聚类分析。论文讨论了参数β对实验结果的影响,通过实验得出β为0.5时该算法的分解结果能够较好的表示基因表达数据,其聚类效果较显著。针对β散度分解算法在提取数据特征信息不够显著做了如下两个方面的的改进:一是基于正交约束的β散度非负矩阵分解,在β散度非负矩阵分解目标函数中加入正交约束。二是将L0范数约束引入到目标函数中,在使得目标函数最小化的条件下对数据矩阵进行分解。算法在保证分解数据低维特征的条件下,使得分解误差最小,提高分解矩阵的稀疏表示能力,然后用 K-means对分解的基因表达数据进行聚类研究。最后将改进的算法分别与β散度分解、最大熵分解、传统的矩阵分解等算法的结果进行聚类对比,通过对实验的分析我们得出改进算法能够较好地提高聚类精度。
其他文献
期刊
为了保证教学质量,学校需要制定一套规范的教学计划,而课表编排是教学计划得以顺利执行的重要环节之一。高校课表编排问题是一个不确定性调度和非线性组合优化问题,并已被证
期刊
期刊
期刊
二十世纪二十年代,芬兰数学家R. Nevanlinna创立了Nevanlinna值分布理论,这是二十世纪最伟大的数学成就之一。亚纯函数唯一性理论作为Nevanlinna值分布理论的重要研究方向,一直
学位
超凸空间和G-凸空间都是没有线性结构的抽象空间,但超凸空间和线性空间不能相互包含.尽管超凸空间和G-凸空间没有线性空间中的线性结构,但它们有容许集和G-凸性的概念.因此,H
期刊
铁基催化剂制备一直是国内外学者研究的一个重要问题.铁基催化剂主要用于FischerTropsch(F-T)反应合成石油,其活性和微观结构对合成石油的纯度有重要影响.本文主要针对沉淀法制备铁基催化剂过程中一次粒子聚集成二次粒子的介尺度行为,结合扩展DLVO(EDLVO)理论,将范德华作用力、静电作用力和界面极性相互作用力的影响融入到元胞自动机的规则研究中,从而建立沉淀法制备铁基催化剂过程中纳米粒子聚
学位