基于三维模式的聚类及其在生物信息特征提取中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jiayueye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物信息学上,传统的聚类在取得不断发展的同时,存在着某些不适应的地方,因为有时对象与对象之间除了存在距离之间的关系,也存在一致的“模式”关系,因此模式聚类的方法被提出来解决这种存在的问题,比如基于二维的MAPLE算法,不但找出了所以的关联聚类,而且突破了常见聚类中一个对象只能属于一个聚类的思维。 随着生物信息学的发展,二维的模式聚类已经不能满足新的需求,因此一种基于三维的模式聚类Q-clustering算法被提出来,该算法虽然提出了三维的模式聚类方法,但是无论在效率上,还是在速度上,都存在着许多不足的地方。 本文对原有的算法进行了分析和研究,提出了一种改进Q-clustering的新算法,即Qtop-k算法。该算法针对Q-clustering算法不能精确地反映相关簇类的紧密程度、寻找相关簇类效率较低等问题,通过设计0-ρ三角矩阵来寻找最大关联样本集(MCSSs),重新设计质量评价函数,对样本逆向列表进行修剪、对搜索流程进行压缩等方法,使计算得到的模式聚类的质量更加精确,使在搜索模式的聚类过程中,应用Qtop-k算法的核心剪枝技术能大大减少搜索的时间;针对生物信息研究的需要,为了突出某些基因或基因群的模式特征,进一步提出带有权重的三维模式聚类,并设计了基于权重三维模式聚类的质量评价函数,使在一定的权重函数作用下,基因组关联模式特征被挖掘的概率能大大提高。 本文分别通过实验进行了: 1)Qtop-k与K-Means聚类结果的比较; 2)模式聚类剪枝与改进模式聚类剪枝的效率比较; 3)模式聚类与基于权重模式聚类的基因组模式的挖掘比率提高的比较以及不同权重下基因识别质量评价比较,实验结果表明,Qtop-k算法比Q-clustering算法在时间效率,模式特征识别质量、参数递增敏感度等方面,都有着更大的优势。
其他文献
本文对有关Dirichlet级数近几年来的研究成果作了综合的评述,在此基础上,研究了随机Dirichlet级数的亏函数、增长性及其值分布的问题.首先是对右半平面上一类有限级随机Dirichle
自20世纪70年代以来,随着经济全球化和金融一体化发展,全球金融市场发生了基础性和结构性的变化,金融市场的波动性和系统性风险也大为加剧。其最直观的表现就是:20世纪90年代中期
数学是各个学科的基础,为一切科学服务,在教育中占有无可比拟的地位,数学教育对人才素质的培养起着关键性作用。网络信息时代的到来,为教育普及提供了新的实现手段,网络学习平台以
学位
随着期权理论的发展和金融市场的成熟,投资组合保险理论在金融业界中己成为一种盛行的资产配置策略,其中常数比例投资组合保险策略(CPPI)以其模型简单,同时参数设置又能充分反映
学位
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
泊松回归模型常常用于计数数据的研究中,然而在实际数据中零值的比例可能远远大于泊松分布中取零值的概率,而且这些零值通常都有其特殊含义。另外计数数据可能是分组数据,即观测
学位
21世纪是一个全新的时代,科学技术迅猛发展,聋儿听力语言康复训练更是呈现出时代性和交叉性的特点.本文尝试分析促进聋儿听力语言康复训练的一系列方法,意在起到抛砖引玉之用
本论文主要研究奇异点的检测和指纹细节点匹配方面的问题。   在奇异点检测上,我们提出了两种新的算法用于检测指纹奇异点,且两种算法都利用了Hough变换。第一个算法在零极
学位
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
多重典范映射是近代双有理几何中的一个重要研究课题。目前已知对任一n维一般型射影代数簇,存在只依赖维数n的正整数rn,使得只要m≥rn,那么φm就是双有理映射。本文主要研究了在