基于二分图的聚类算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:erywwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着对计算生物学的高速发展,开发出的微阵列技术可以测量细胞中成千上万的基因。在这些基因中我们可以提取出许多数据,针对这些庞大的数据,我们可以从中得到许多有用的结论,数据分析技术在其中起到了至关重要的作用。聚类分析是研究数据的一个非常重要的技术途径。进几十年越来越重视对聚类分析的研究,并开发出了许多高效的聚类算法。传统的聚类方法通过对数据的行或者列上进行聚类,得出聚类结果。但是有时候数据的聚类结果往往受行和列的双重影响。因此,后来提出从行和列两个方向上进行聚类,即提出双向聚类算法。其主要功能是将数据之间相似程度比较高的数据集分为一组,而不同组别中数据之间相似程度比较小。对于基因表达数据中,同过聚类技术所得到的分组,可能对某一病症或性状有共同的表达能力,从而有助于探索基因奥秘。现如今,聚类算法已经成为研究基因表达数据最为常用的方法之一,但是由于现在数据越来越多,形式也多种多样,以及算法自身的一些不足,对一些问题的处理结果并不十分理想,因此研究更优秀的聚类算法,就有着十分重要的意义。BIMAX算法是近几年提出的一种双向聚类算法,该算法被证明能在允许的时间内有效地找出全部所想要大小的双向聚类,提供了一个基础性算法。这种方法基于分而治之的思想,使用的数据模型是0-1矩阵,它通过对矩阵的列进行简单分组,而后移动行来简单对矩阵进行划分,并通过对重叠矩阵进行选择讨论,最终达到聚类的目的。然而该算法却存在着一些缺陷。本文主要利用BIMAX算法先对列划分的特点,利用K均值聚类方法、CC(ChengAndChurch Biclustering)算法中残差的思想,以及一种聚类决策标准:Gain值,从原矩阵入手进行预处理,使BIMAX算法处理已对列进行调整后的数据矩阵,这样在BIMAX算法开始划分列集合时就具有较高的聚合程度,使得算法能更快地找到双向聚类,从而提高BIMAX算法处理矩阵时的效率。实验结果表明,改进的BIMAX算法与原BIMAX算法对比,在处理同一矩阵的过程中,可以更快地输出全部要求大小的双向聚类,降低了计算时间。
其他文献
面向Agent软件需求分析技术作为一种新的在更高抽象层次上建模软件的技术,对传统的软件需求分析方法提出了挑战,但同时也带来了新的机遇与发展。在传统的需求分析技术(面向对
移动Agent系统主要包括移动Agent及其运行环境,后者位于网络节点上,为移动Agent实例提供运行所需的环境和系统的功能支持。移动Agent的最重要特点是它具有移动性,即它可以自
Web服务采用了通用的基于标准的协议和技术,便于用户访问,但这种方便也带来了安全性的隐患,因此Web服务的安全性成为研究热点。本文首先介绍了XML和Web服务的基础知识,并在此
对大型燃煤锅炉而言,炉膛火焰数字图像处理技术可以很好的监控炉膛火焰状况。图像分割技术是计算机图像处理领域所研究的核心问题之一,本文将其应用于炉膛火焰图像的处理与分
互联网的迅速发展,给人们的学习、工作和生活提供了大量的有益进步的信息,带来了极大的便利,与此同时在大量进步有益的信息的背后同样存在着大量不良的信息,尤其对青少年的身
ITU-T对下一代网络的定义包含如下的概念,NGN应该是分组的网络;能够提供包括电信业务在内的多种业务;具有QoS能力;实现业务功能和底层传送协议的分离;实现用户对业务使用的一
基于项目反应理论的计算机自适应测试兴起于上世纪八十年代中期,它是计算机辅助测试及现代测量研究中的一个重要领域,它的特点是能够根据考生能力不同而由计算机从题库中智能选
工作流技术是实现企业业务流程管理自动化的一项重要的计算机技术。随着计算机网络技术的不断成熟和发展,企业的规模越来越庞大,企业物理位置的分散性和决策制定过程的分散性
随着电信运营商从传统基础网络运营商向现代综合信息服务提供商转变,运营商不再仅仅提供单一通信业务,业务类型,用户数和业务量大幅增长,与此同时,电信市场不断开放,市场竞争
基于内容的图像搜索是目前信息检索领域的研究热点,属于多学科交叉,涉及到计算机图形学、图像处理、数据挖掘、模式识别等多种技术。因为图像特征维数高且无序,所以基于内容