一种新的混合遗传的基因聚类方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:waterdrop505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的不断发展,已经获取了海量的基因表达数据。从已有的基因数据中挖掘有价值的信息,对于探讨基因的功能甚至某些细胞过程都有重大意义。聚类方法广泛的应用于此类数据的分析,特别是当前的研究热点——基因聚类问题。利用聚类算法找出相似基因,进而可以通过已知基因的信息去推断大量未知基因的功能。在众多聚类算法中,K-Means算法是最受欢迎的划分方式。它采用经典的梯度下降策略,以迭代的重定位方式分割数据集,快速给出聚类结果。然而K-Means算法有两大缺点:对初始质心敏感和易陷入局部极小,导致处理大规模、高维数据时聚类结果不理想。运用遗传算法(GA)在整个解空间搜索基因聚类问题的最优划分可以明显改善最终的聚类效果。但传统的交叉操作会产生非法分割即空类,导致大量的重复计算。因此直接利用GA处理基因聚类问题会付出高昂的计算代价,特别是针对大规模基因表达数据,各个聚类质心的收敛速度非常缓慢。遗传K均值算法(GKA)在保持遗传框架的前提下,采用K-Means算法代替交叉操作进行局部更新,算法融合后显著的改善了GA处理低维基因聚类时收敛过缓的缺陷,获得了给定基因表达数据集的全局意义下的最优分割。然而对于某些高维基因数据,GKA的收敛速度仍不尽如人意。为了得到更全面的基因聚类算法,我们尝试了添加扰动项的XK-Means算法,并且通过补类的策略避免了选取合理扰动边界带来的大量计算,得到了改进算法——IXK-Means。更进一步,效仿GKA的混合方式,将IXK-Means引入到遗传框架中,提出了一种新的收敛到全局最优的基因聚类算法一—GXKA。本文首先介绍了基本的划分聚类算法及遗传框架下的聚类方法,接着在第三章中叙述了GXKA的计算流程及其算法细节,最后在第四章中,利用有限Markov链原理给出了GXKA的收敛性证明,并且进行了真实基因表达数据的实验。通过这些理论及实验的分析,我们得到了如下结论:(1)满足一定条件下,GXKA以概率1收敛到全局最优划分;(2)在相同的停机条件下,就三个评价聚类指标(MSE、类紧度D1和类分离度D2)而言,IXK-Means优于XK-Means的聚类效果;(3)GXKA的收敛速度相比GKA有了质的提高,大致只要GKA一半的进化时间就可以收敛到GKA的MSE稳态,有效的缓解了处理基因聚类时遗传框架带来的时间复杂度问题。
其他文献
设G为有限群,H是G的子群.若存在G的子群K使得G= HK且H∩HK=1,则称H在G中有补,称K为H在G中的补子群.  本文确定了所有不含于φ(G)的子群均有补的有限p群G,也确定了所有不含
本文结合工程实例,分析和探讨了等效电气系统为中性点接地的Y形系统的电极式热水锅炉直接接入市政电网时需考虑的问题及可行性,并提出了解决方案。 Based on the engineerin
本文对楼宇自动化控制系统的通信架构的历史发展进行了描述,并对楼宇自动化控制系统的IP通信在建筑智能化网BINet上统一承载时,其系统指令的传输方式、特征进行了探究,以此阐
关于M-及L-弱紧算子与其他算子关系的研究已有很多,本文研究了AM-紧算子的M-及L-弱紧性,对M-及L-弱紧算子的性质做进一步的完善。在研究M-及L-弱紧算子与AM-紧算子关系过程中,考
随着数字化扫描技术与三维打印技术的快速发展,三维模型的表示、处理及分析等形成了一个新的研究方向,即数字几何处理,在近些年来得到了广泛的研究,其主要研究内容包括:网格去噪
等腰正交和毕达哥拉斯正交是赋范线性空间中不满足齐次性与可加性的两种正交关系。因此与给定向量等腰正交或毕达哥拉斯正交的集合往往比过原点的超平面具有更复杂的性质。研
近几十年来,对非线性互补问题的研究,一般分为理论和算法。目前求解非线性互补问题的方法之一是首先将其转化成一个方程组,然后利用求解方程组的相关方法间接求解得到非线性互补
随着信息技术和互联网技术的不断发展,图形图像技术得到了广泛的应用。作为图形图像技术基础学科,计算机图形学也显得越来越重要。自20世纪60年代计算机图形学作为一门新兴学