基于MCL聚类的模体发现算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sunning1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模体发现在系统进化、基因调控等领域处于核心地位。模体中蕴含丰富的生命遗传信息,由于其长度,位置,变异的不确定性,模体发现问题仍然是一个难点。本文分析了聚类应用在模体发现问题上的可行性,提出了基于马尔可夫(MCL)聚类求解该问题的算法。应用滑窗机制和降维策略,缩小原始数据至MCL算法可处理的规模大小。通过MCL聚类把相似度高的l-mer自适应的聚集在同一个子类中。对聚类产生的子类进行“去杂”——提取子类内部蕴含的最大团,对所有的子类施加一种基于启发式的遗传算法,找出每个子类的最大团,作为算法挖掘的候选模体实例集。在候选模体实例集上,应用相对熵作为测度进行评判,择优输出,发现最终的模体实例。本文使用了模拟数据和实际生物数据对算法进行了聚类产生的子类自身的特性和子类之间相关性分析。对每个子类中蕴含的不同最大团进行了分析,找出了同一子类中最大团之间的互补和重叠关系,以及这些关系和算法nPC性能的关系。通过相对熵测度的分析,比对了Top1和TopK原则对算法的影响。测量性能系数nPC和nCC,验证了算法的有效性。对模拟生物数据和保守性较强的真实生物数据取得的性能都比较满意,并和MEME算法进行效果比较。
其他文献
随着网络技术的不断发展,Web地理信息系统(WebGIS)已经成为地理信息系统(GIS)的研究热点,它为发布及使用地理信息空间数据提供了一种便捷途径。本课题在研究数字林业及WebGIS
知识发现(KDD,Knowledge Discovery in Database)是从数据中获取知识的一种智能信息处理技术。分类是数据挖掘的重要组成部分,它根据类标号已知的数据建立模型,进而使用该模型来
信号瞬时特征的提取在信号处理中具有重要的意义,然而复杂信号特别是非线性和非稳定信号真正意义上瞬时参数的定义都比较困难,更谈不上高精度测量信号的瞬时参数。如何利用数据
车间作业调度问题(JSP)是许多实际问题的简化模型。寻找求解JSP问题的有效途径是调度和优化领域的重要课题。但是车间作业调度问题是NP难解问题,寻找具有多项式复杂度的算法几
移动无线Ad hoc网络是一种特殊的临时性的自组网络,该网络由一系列的带有无线收发装置的移动终端节点组成。该网络最大的特点是不需要固定的基础设施的支持,无需中心控制管理。
分布式异构数据源的集成涉及到多个软件领域,通过分布式构件技术在数据源之上建立数据访问中间层,可使集成体系具有优越的性能和良好的可扩展性。论文基于CORBA和Web Services
随着当前企业应用的快速发展,对软件的需求越来越高。在企业应用软件开发中,用户界面的开发占有的工作量很大。提高用户界面的开发效率无疑是提高整个软件开发效率的有效手段。
信息过载和资源迷向己经成为制约人们高效使用Internet信息的瓶颈。信息过载是指用户面对太多的信息难以及时地消化、吸收;资源迷向是指用户不知道如何确切地表达对网上资源
现如今,随着海上石油开采的兴起以及海上石油运输的繁荣,诸如船舶海损事故、海上石油平台泄漏事故、沿岸石油储运设备事故等海上溢油事故频发,针对事故所造成的经济、环境损
Web服务是基于网络的、分布式、自包含、自描述、模块化的应用程序,具有良好的封装性和松耦合性。随着Web服务研究的不断深入,供应商提供的单个服务越来越难满足用户的实际需